VideoEval-Pro: Robust and Realistic Long Video Understanding Evaluation

要約

大規模なマルチモーダルモデル(LMM)は最近、長いビデオ理解(LVU)の強力なツールとして浮上しており、標準化されたLVUベンチマークの開発を促し、パフォーマンスを評価しています。
しかし、私たちの調査は、既存のLVUベンチマークに対するかなり落ち着いた教訓を明らかにしています。
第一に、ほとんどの既存のベンチマークは、正解を推測する可能性があるため、評価結果が膨らんでいる複数選択の質問(MCQ)に大きく依存しています。
第二に、これらのベンチマークの質問のかなりの部分には、入力ビデオを読むことなくモデルが直接答えることができるようにする強力な事前にあります。
たとえば、Gemini-1.5-Proは、ビデオ-MME上の長いビデオからのランダムなフレームを考えると、50を超える精度を実現できます。
また、フレームの数を増やすことで、必ずしも直感に反する既存のベンチマークの改善につながるとは限らないことがわかります。
その結果、現在のLVUベンチマークの妥当性と堅牢性は損なわれており、LMMSの長いビデオ理解能力の忠実な評価を妨げています。
この問題に取り組むために、ビデオ全体を理解する必要がある自由回答形式の短い回答に関する質問を含む現実的なLVUベンチマークであるVideyVal-Proを提案します。
VideyEval-Proは、知覚と推論タスクを通じて、セグメントレベルとフルビデオの両方の理解を評価します。
21の独自およびオープンソースのビデオLMMを評価することにより、次の調査結果を結論付けます。(1)ビデオLMMSは、MCQと比較して、オープンエンドの質問に劇的なパフォーマンス($> $ 25 \%)がドロップすることを示しています。
(2)驚くべきことに、MCQスコアが高いほど、Videoval-Proのオープンエンドスコアが高くなることはありません。
(3)他のMCQベンチマークと比較して、VideoVal-Proは、入力フレームの数を増やすことでより多くの利点があります。
私たちの結果は、Videoval-Proがより現実的で信頼できる長いビデオ理解を提供し、このドメインの進歩のより明確な見方を提供することを示しています。

要約(オリジナル)

Large multimodal models (LMMs) have recently emerged as a powerful tool for long video understanding (LVU), prompting the development of standardized LVU benchmarks to evaluate their performance. However, our investigation reveals a rather sober lesson for existing LVU benchmarks. First, most existing benchmarks rely heavily on multiple-choice questions (MCQs), whose evaluation results are inflated due to the possibility of guessing the correct answer; Second, a significant portion of questions in these benchmarks have strong priors to allow models to answer directly without even reading the input video. For example, Gemini-1.5-Pro can achieve over 50\% accuracy given a random frame from a long video on Video-MME. We also observe that increasing the number of frames does not necessarily lead to improvement on existing benchmarks, which is counterintuitive. As a result, the validity and robustness of current LVU benchmarks are undermined, impeding a faithful assessment of LMMs’ long-video understanding capability. To tackle this problem, we propose VideoEval-Pro, a realistic LVU benchmark containing questions with open-ended short-answer, which truly require understanding the entire video. VideoEval-Pro assesses both segment-level and full-video understanding through perception and reasoning tasks. By evaluating 21 proprietary and open-source video LMMs, we conclude the following findings: (1) video LMMs show drastic performance ($>$25\%) drops on open-ended questions compared with MCQs; (2) surprisingly, higher MCQ scores do not lead to higher open-ended scores on VideoEval-Pro; (3) compared to other MCQ benchmarks, VideoEval-Pro benefits more from increasing the number of input frames. Our results show that VideoEval-Pro offers a more realistic and reliable measure of long video understanding, providing a clearer view of progress in this domain.

arxiv情報

著者 Wentao Ma,Weiming Ren,Yiming Jia,Zhuofeng Li,Ping Nie,Ge Zhang,Wenhu Chen
発行日 2025-05-20 17:26:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク