Video SimpleQA: Towards Factuality Evaluation in Large Video Language Models

要約

大規模なビデオ言語モデル(LVLMS)の最近の進歩は、マルチモーダルの理解の可能性を強調していますが、ビデオコンテキストでの事実に基づいた根拠を評価することは、重要な未解決の課題のままです。
このギャップに対処するために、LVLMSの事実評価に合わせた最初の包括的なベンチマークであるビデオSimpleQAを紹介します。
私たちの作品は、次の主要な機能を通じて既存のビデオベンチマークと区別されます。1)知識が必要です。明示的な物語を超えた外部知識の統合を要求する。
2)事実を求める質問:主観的な解釈を避け、目的、議論の余地のない出来事または関係をターゲットにします。
3)決定的および短い形式の回答:回答は、短い形式で明確で明確に修正され、最小限のスコアリングの差異を伴うLLM-A-A-A-Judgeフレームワークを通じて自動化された評価を可能にします。
4)外部ソースの検証:すべての注釈は、信頼性を確保するために、権威ある外部参照に対して厳密な検証を受けます。
5)必要な時間的推論:注釈付きの質問タイプには、静的な単一フレームの理解と動的な時間的推論の両方が含まれ、長いコンテキスト依存性の下でのLVLMSの事実性を明示的に評価します。
41の最先端のLVLMSを広範囲に評価し、次のように重要な調査結果を要約します。1)現在のLVLMSは、特にオープンソースモデルの場合、実際には顕著な欠陥を示します。
最高のパフォーマンスモデルGemini-1.5-Proは、54.4%のFスコアを達成します。
2)テスト時間計算パラダイムは、重要でないパフォーマンスの向上を示し、事後計算により事実性を高めるための基本的な制約を明らかにします。
3)検索された生成は、追加の推論時間オーバーヘッドを犠牲にして一貫した改善を示し、重要な効率パフォーマンスのトレードオフを提示します。

要約(オリジナル)

Recent advancements in Large Video Language Models (LVLMs) have highlighted their potential for multi-modal understanding, yet evaluating their factual grounding in video contexts remains a critical unsolved challenge. To address this gap, we introduce Video SimpleQA, the first comprehensive benchmark tailored for factuality evaluation of LVLMs. Our work distinguishes from existing video benchmarks through the following key features: 1) Knowledge required: demanding integration of external knowledge beyond the explicit narrative; 2) Fact-seeking question: targeting objective, undisputed events or relationships, avoiding subjective interpretation; 3) Definitive & short-form answer: Answers are crafted as unambiguous and definitively correct in a short format, enabling automated evaluation through LLM-as-a-judge frameworks with minimal scoring variance; 4) External-source verified: All annotations undergo rigorous validation against authoritative external references to ensure the reliability; 5) Temporal reasoning required: The annotated question types encompass both static single-frame understanding and dynamic temporal reasoning, explicitly evaluating LVLMs factuality under the long-context dependencies. We extensively evaluate 41 state-of-the-art LVLMs and summarize key findings as follows: 1) Current LVLMs exhibit notable deficiencies in factual adherence, particularly for open-source models. The best-performing model Gemini-1.5-Pro achieves merely an F-score of 54.4%; 2) Test-time compute paradigms show insignificant performance gains, revealing fundamental constraints for enhancing factuality through post-hoc computation; 3) Retrieval-Augmented Generation demonstrates consistent improvements at the cost of additional inference time overhead, presenting a critical efficiency-performance trade-off.

arxiv情報

著者 Meng Cao,Pengfei Hu,Yingyao Wang,Jihao Gu,Haoran Tang,Haoze Zhao,Jiahua Dong,Wangbo Yu,Ge Zhang,Ian Reid,Xiaodan Liang
発行日 2025-03-24 17:46:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク