要約
考え方(COT)の推論の進歩により、大規模な言語モデル(LLMS)と大規模なビジョン言語モデル(LVLMS)の機能が大幅に向上しました。
ただし、ビデオベッドコットの推論のための厳密な評価フレームワークはまだ不在です。
現在のビデオベンチマークは、推論プロセスを適切に評価し、障害が認識または推論能力の欠陥に起因するかどうかを明らかにすることができません。
したがって、LVLMSのビデオチェーンの推論機能を包括的に評価するために設計された新しいベンチマークであるVCRベンチを紹介します。
VCRベンチは、さまざまなビデオコンテンツと期間にまたがる859のビデオと、1,034の高品質の質問回答ペアで構成されています。
各ペアには、段階的なCOTの理論的根拠が手動で注釈が付けられており、すべてのステップにタグ付けされて、知覚または推論能力との関連を示すようにタグ付けされています。
さらに、7つの異なるタスクの寸法を設計し、COTスコアを提案して、COTプロセス全体を段階的にタグ付けしたCOTの合理的根拠に基づいて評価します。
VCRベンチに関する広範な実験は、現在のLVLMSの大幅な制限を強調しています。
トップパフォーマンスモデルであるO1でさえ、62.8%のCOTスコアと56.7%の精度のみを達成しますが、ほとんどのモデルは40%未満です。
実験では、ほとんどのモデルが推論ステップよりも認識のスコアが低く、複雑なビデオ推論のための時間空間情報処理におけるLVLMSの重要なボトルネックを明らかにしています。
COTスコアと精度の間の堅牢な正の相関は、評価フレームワークの妥当性を確認し、複雑なビデオ推論タスクを解決する際のCOT推論の重要な役割を強調します。
VCRベンチが標準化された評価フレームワークとして機能し、複雑なビデオ推論タスクの実際の欠点を公開することを願っています。
要約(オリジナル)
The advancement of Chain-of-Thought (CoT) reasoning has significantly enhanced the capabilities of large language models (LLMs) and large vision-language models (LVLMs). However, a rigorous evaluation framework for video CoT reasoning remains absent. Current video benchmarks fail to adequately assess the reasoning process and expose whether failures stem from deficiencies in perception or reasoning capabilities. Therefore, we introduce VCR-Bench, a novel benchmark designed to comprehensively evaluate LVLMs’ Video Chain-of-Thought Reasoning capabilities. VCR-Bench comprises 859 videos spanning a variety of video content and durations, along with 1,034 high-quality question-answer pairs. Each pair is manually annotated with a stepwise CoT rationale, where every step is tagged to indicate its association with the perception or reasoning capabilities. Furthermore, we design seven distinct task dimensions and propose the CoT score to assess the entire CoT process based on the stepwise tagged CoT rationals. Extensive experiments on VCR-Bench highlight substantial limitations in current LVLMs. Even the top-performing model, o1, only achieves a 62.8% CoT score and an 56.7% accuracy, while most models score below 40%. Experiments show most models score lower on perception than reasoning steps, revealing LVLMs’ key bottleneck in temporal-spatial information processing for complex video reasoning. A robust positive correlation between the CoT score and accuracy confirms the validity of our evaluation framework and underscores the critical role of CoT reasoning in solving complex video reasoning tasks. We hope VCR-Bench to serve as a standardized evaluation framework and expose the actual drawbacks in complex video reasoning task.
arxiv情報
著者 | Yukun Qi,Yiming Zhao,Yu Zeng,Xikun Bao,Wenxuan Huang,Lin Chen,Zehui Chen,Jie Zhao,Zhongang Qi,Feng Zhao |
発行日 | 2025-04-10 17:59:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google