要約
ビデオのシーケンシャル構造は、マルチフレームの証拠を見つけてマルチモーダルの推論を実施するためのマルチモーダル大手言語モデル(MLLM)の能力に挑戦します。
ただし、既存のビデオベンチマークは、主にタスクの理解に焦点を当てています。タスクは、質問(以下「質問フレーム」と呼ばれる)に記載されているフレームを一致させ、隣接するフレームをいくつか知覚するためにモデルのみを必要とします。
このギャップに対処するために、MMR-V:ビデオのマルチモーダルの深い推論のベンチマークを提案します。
ベンチマークは、次の機能によって特徴付けられます。
(1)長距離のマルチフレーム推論:モデルは、質問フレームからはほど遠い可能性のある証拠フレームを推測および分析するために必要です。
(2)認識を超えて:質問は直接的な認識だけで答えることはできませんが、隠された情報に対する推論が必要です。
(3)信頼性:すべてのタスクは手動で注釈が付けられ、一般的な認識に合わせて広範な現実世界のユーザーの理解を参照しています。
(4)混乱性:モデルショートカットを削減するために、注意深くデザインされたディストラクタ注釈戦略。
MMR-Vは、317のビデオと1,257のタスクで構成されています。
私たちの実験は、現在のモデルが依然としてマルチモーダルの推論に苦しんでいることを明らかにしています。
最高のパフォーマンスモデルであるO4-Miniでさえ、52.5%の精度しか達成されません。
さらに、現在の推論強化戦略(考え方とスケーリングのテスト時間計算)が限られた利益をもたらします。
さらなる分析では、マルチモーダル推論に対して要求されたCOTがテキストの推論においてそれとは異なることを示しています。これは、限られたパフォーマンスの向上を部分的に説明しています。
MMR-Vが、マルチモーダル推論機能の強化に関するさらなる研究を促すことができることを願っています。
要約(オリジナル)
The sequential structure of videos poses a challenge to the ability of multimodal large language models (MLLMs) to locate multi-frame evidence and conduct multimodal reasoning. However, existing video benchmarks mainly focus on understanding tasks, which only require models to match frames mentioned in the question (hereafter referred to as ‘question frame’) and perceive a few adjacent frames. To address this gap, we propose MMR-V: A Benchmark for Multimodal Deep Reasoning in Videos. The benchmark is characterized by the following features. (1) Long-range, multi-frame reasoning: Models are required to infer and analyze evidence frames that may be far from the question frame. (2) Beyond perception: Questions cannot be answered through direct perception alone but require reasoning over hidden information. (3) Reliability: All tasks are manually annotated, referencing extensive real-world user understanding to align with common perceptions. (4) Confusability: Carefully designed distractor annotation strategies to reduce model shortcuts. MMR-V consists of 317 videos and 1,257 tasks. Our experiments reveal that current models still struggle with multi-modal reasoning; even the best-performing model, o4-mini, achieves only 52.5% accuracy. Additionally, current reasoning enhancement strategies (Chain-of-Thought and scaling test-time compute) bring limited gains. Further analysis indicates that the CoT demanded for multi-modal reasoning differs from it in textual reasoning, which partly explains the limited performance gains. We hope that MMR-V can inspire further research into enhancing multi-modal reasoning capabilities.
arxiv情報
著者 | Kejian Zhu,Zhuoran Jin,Hongbang Yuan,Jiachun Li,Shangqing Tu,Pengfei Cao,Yubo Chen,Kang Liu,Jun Zhao |
発行日 | 2025-06-04 16:33:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google