要約
最近、学術界と産業界の両方でビデオ大規模言語モデル (ビデオ LLM) が大幅に進歩しました。
ただし、さまざまなビデオ LLM のパフォーマンス、特にそのきめの細かい時間的な視覚機能を評価およびベンチマークする方法は、依然として非常に限られています。
一方で、現在のベンチマークは比較的単純なビデオ (字幕付きムービークリップなど) を使用しており、モデルはわずか数フレームを処理するだけでビデオ全体を理解できます。
一方で、彼らのデータセットはタスク形式の多様性に欠けており、QA または多肢選択 QA のみで構成されており、詳細で正確なテキストを生成するモデルの能力が見落とされています。
スポーツ ビデオは、複雑な視覚情報、連続するイベント、感情豊かな解説を特徴とし、ビデオ LLM にとって重大な課題となっており、スポーツの解説を理想的なベンチマーク タスクにしています。
これらの課題に触発されて、私たちはスポーツ ビデオの解説生成という新しいタスクを提案し、ビデオ LLM 向けに $\textbf{SCBench}$ を開発しました。
このようなベンチマークを構築するために、(1) $\textbf{SCORES}$ を導入します。これは、タスク用に特別に設計された 6 次元の指標であり、これに基づいて GPT ベースの評価方法を提案します。(2) $\textbf{CommentarySet
}$ は、5,775 個の注釈付きビデオ クリップと、指標に合わせて調整されたグラウンド トゥルース ラベルで構成されるデータセットです。
SCBench に基づいて、複数のビデオ LLM (VILA、Video-LLaVA など) および思考連鎖ベースライン手法に関する包括的な評価を実施します。
その結果、InternVL-Chat-2 が 5.44 という最高のパフォーマンスを達成し、2 番目に優れたパフォーマンスを 1.04 上回っていることがわかりました。
私たちの研究は、複雑な視覚的理解タスクにおけるモデルの全体的な能力を強化することを目的として、将来の研究に新たな視点を提供します。
私たちのデータセットは間もなくリリースされる予定です。
要約(オリジナル)
Recently, significant advances have been made in Video Large Language Models (Video LLMs) in both academia and industry. However, methods to evaluate and benchmark the performance of different Video LLMs, especially their fine-grained, temporal visual capabilities, remain very limited. On one hand, current benchmarks use relatively simple videos (e.g., subtitled movie clips) where the model can understand the entire video by processing just a few frames. On the other hand, their datasets lack diversity in task format, comprising only QA or multi-choice QA, which overlooks the models’ capacity for generating in-depth and precise texts. Sports videos, which feature intricate visual information, sequential events, and emotionally charged commentary, present a critical challenge for Video LLMs, making sports commentary an ideal benchmarking task. Inspired by these challenges, we propose a novel task: sports video commentary generation, developed $\textbf{SCBench}$ for Video LLMs. To construct such a benchmark, we introduce (1) $\textbf{SCORES}$, a six-dimensional metric specifically designed for our task, upon which we propose a GPT-based evaluation method, and (2) $\textbf{CommentarySet}$, a dataset consisting of 5,775 annotated video clips and ground-truth labels tailored to our metric. Based on SCBench, we conduct comprehensive evaluations on multiple Video LLMs (e.g. VILA, Video-LLaVA, etc.) and chain-of-thought baseline methods. Our results found that InternVL-Chat-2 achieves the best performance with 5.44, surpassing the second-best by 1.04. Our work provides a fresh perspective for future research, aiming to enhance models’ overall capabilities in complex visual understanding tasks. Our dataset will be released soon.
arxiv情報
著者 | Kuangzhi Ge,Lingjun Chen,Kevin Zhang,Yulin Luo,Tianyu Shi,Liaoyuan Fan,Xiang Li,Guanqun Wang,Shanghang Zhang |
発行日 | 2024-12-23 15:13:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google