要約
テスト時間最適化の最近の進歩により、大規模な言語モデル(LLM)の顕著な推論能力が発生し、数学とコーディングの非常に複雑な問題を解決できるようになりました。
ただし、マルチモーダルLLMS(MLLM)の推論機能は、特に複雑なビデオ言語タスクの場合、依然として大幅に遅れています。
この問題に対処するために、複雑なビデオ理解を2つの段階に分解する単純な言語ベースのビデオ推論フレームワークであるSilvrを提示します。
最初の段階では、SILVRは、短いクリップキャプションやオーディオ/音声字幕などの多感覚入力を使用して、RAWビデオを言語ベースの表現に変換します。
第2段階では、言語の説明は、複雑なビデオ言語理解タスクを解決するために、強力な推論LLMに供給されます。
長いコンテキストの多感覚入力を処理するために、適応トークン削減スキームを使用します。これは、トークンをサンプリングする時間的粒度を動的に決定します。
当社のシンプルでモジュール式、およびトレーニングフリーのビデオ推論フレームワークは、Video-MME(LONG)、Video-MMMU(理解)、Video-MMLU、CGBench、およびEgolifeで最も報告された結果を達成します。
さらに、ビデオの推論機能に焦点を当てた私たちの経験的研究は、ビデオで明示的に訓練されていないにもかかわらず、LLMSがビデオ、因果関係、長期、および知識取得推論の推論の複雑な、因果関係、長期、および知識取得推論のためのビデオ、スピーチ、およびオーディオからの多感覚入力情報を効果的に集約できることを示しています。
コードはhttps://github.com/ceezh/silvrで入手できます。
要約(オリジナル)
Recent advances in test-time optimization have led to remarkable reasoning capabilities in Large Language Models (LLMs), enabling them to solve highly complex problems in math and coding. However, the reasoning capabilities of multimodal LLMs (MLLMs) still significantly lag, especially for complex video-language tasks. To address this issue, we present SiLVR, a Simple Language-based Video Reasoning framework that decomposes complex video understanding into two stages. In the first stage, SiLVR transforms raw video into language-based representations using multisensory inputs, such as short clip captions and audio/speech subtitles. In the second stage, language descriptions are fed into a powerful reasoning LLM to solve complex video-language understanding tasks. To handle long-context multisensory inputs, we use an adaptive token reduction scheme, which dynamically determines the temporal granularity with which to sample the tokens. Our simple, modular, and training-free video reasoning framework achieves the best-reported results on Video-MME (long), Video-MMMU (comprehension), Video-MMLU, CGBench, and EgoLife. Furthermore, our empirical study focused on video reasoning capabilities shows that, despite not being explicitly trained on video, strong reasoning LLMs can effectively aggregate multisensory input information from video, speech, and audio for complex temporal, causal, long-context, and knowledge acquisition reasoning tasks in video. Code is available at https://github.com/CeeZh/SILVR.
arxiv情報
著者 | Ce Zhang,Yan-Bo Lin,Ziyang Wang,Mohit Bansal,Gedas Bertasius |
発行日 | 2025-05-30 17:59:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google