CG-Bench: Clue-grounded Question Answering Benchmark for Long Video Understanding

要約

マルチモーダル大規模言語モデル (MLLM) の既存のビデオ理解ベンチマークのほとんどは、短いビデオのみに焦点を当てています。
長いビデオを理解するための限られた数のベンチマークは、多くの場合、多肢選択式の質問 (MCQ) のみに依存します。
ただし、MCQ ベースの評価には固有の制限があり、MLLM の推論能力が向上しているため、モデルはビデオの内容を真に理解することなく、短いビデオの理解と消去法を組み合わせることで純粋に現在の答えを与えることができます。
このギャップに対処するために、長いビデオで手がかりに基づいた質問に答えるために設計された新しいベンチマークである CG-Bench を紹介します。
CG-Bench は、質問に関連する手がかりを取得するモデルの機能を強調し、評価の信頼性を高めます。
これは、14 の主要カテゴリ、171 の二次カテゴリ、638 の三次カテゴリからなる粒度システムによって分類された 1,219 の手動で厳選されたビデオを特徴としており、長時間ビデオ分析の最大のベンチマークとなっています。
このベンチマークには、知覚、推論、幻覚という 3 つの主要な質問タイプの 12,129 の QA ペアが含まれています。
純粋な MCQ ベースの評価の欠点を補うために、モデルがビデオの正しい理解に基づいて回答を生成するかどうかを評価するために、2 つの新しい手がかりベースの評価方法、つまり手がかり根拠のあるホワイト ボックス評価とブラック ボックス評価を設計します。
CG-Bench で複数のクローズドソースおよびオープンソースの MLLM を評価します。
結果は、現在のモデルは短いビデオに比べて長いビデオを理解する能力が著しく劣っており、オープンソース モデルと商用モデルの間には大きなギャップが存在することを示しています。
CG-Bench によって、長時間のビデオを理解するための、より信頼でき、有能な MLLM の開発が進むことを願っています。
すべての注釈とビデオ データは https://cg-bench.github.io/leaderboard/ で公開されます。

要約(オリジナル)

Most existing video understanding benchmarks for multimodal large language models (MLLMs) focus only on short videos. The limited number of benchmarks for long video understanding often rely solely on multiple-choice questions (MCQs). However, because of the inherent limitation of MCQ-based evaluation and the increasing reasoning ability of MLLMs, models can give the current answer purely by combining short video understanding with elimination, without genuinely understanding the video content. To address this gap, we introduce CG-Bench, a novel benchmark designed for clue-grounded question answering in long videos. CG-Bench emphasizes the model’s ability to retrieve relevant clues for questions, enhancing evaluation credibility. It features 1,219 manually curated videos categorized by a granular system with 14 primary categories, 171 secondary categories, and 638 tertiary categories, making it the largest benchmark for long video analysis. The benchmark includes 12,129 QA pairs in three major question types: perception, reasoning, and hallucination. Compensating the drawbacks of pure MCQ-based evaluation, we design two novel clue-based evaluation methods: clue-grounded white box and black box evaluations, to assess whether the model generates answers based on the correct understanding of the video. We evaluate multiple closed-source and open-source MLLMs on CG-Bench. Results indicate that current models significantly underperform in understanding long videos compared to short ones, and a significant gap exists between open-source and commercial models. We hope CG-Bench can advance the development of more trustworthy and capable MLLMs for long video understanding. All annotations and video data are released at https://cg-bench.github.io/leaderboard/.

arxiv情報

著者 Guo Chen,Yicheng Liu,Yifei Huang,Yuping He,Baoqi Pei,Jilan Xu,Yali Wang,Tong Lu,Limin Wang
発行日 2024-12-16 18:46:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク