E.T. Bench: Towards Open-Ended Event-Level Video-Language Understanding

要約

ビデオ大規模言語モデル (Video-LLM) の最近の進歩により、汎用ビデオ理解における大きな可能性が実証されました。
これらのモデルの重要性を検証するために、さまざまなシナリオでの機能を診断するための多くのベンチマークが提案されています。
ただし、既存のベンチマークはビデオ レベルの質問応答を通じてモデルを評価するだけであり、きめの細かいイベント レベルの評価やタスクの多様性が欠けています。
このギャップを埋めるために、E.T. を導入します。
Bench (イベント レベルおよび時間に敏感なビデオ理解ベンチマーク)。オープンエンドのイベント レベルのビデオ理解のための大規模かつ高品質のベンチマーク。
3 レベルのタスク分類法に分類され、E.T.
ベンチには、8 ドメインの 7K ビデオ (合計 251.4 時間) を含む 12 タスクの 7.3K サンプルが含まれており、包括的な評価を提供します。
私たちはベンチマークで 8 つの画像 LLM と 12 のビデオ LLM を広範囲に評価しました。その結果、粗いレベル (ビデオ レベル) を理解するための最先端のモデルは、きめの細かいタスクを解決するのに苦労していることが明らかになりました。
主にビデオコンテキストの長さが短いこと、不適切な時間表現、およびマルチイベントトレーニングデータの欠如が原因で、ビデオ内で関心のあるイベントが固定されています。
これらの問題に焦点を当て、強力なベースライン モデルである E.T. をさらに提案します。
命令チューニング データセット E.T と一緒にチャットします。
イベントレベルの詳細な理解に合わせて調整された 164K を指導します。
当社のシンプルだが効果的なソリューションは、複数のシナリオで優れたパフォーマンスを実証します。

要約(オリジナル)

Recent advances in Video Large Language Models (Video-LLMs) have demonstrated their great potential in general-purpose video understanding. To verify the significance of these models, a number of benchmarks have been proposed to diagnose their capabilities in different scenarios. However, existing benchmarks merely evaluate models through video-level question-answering, lacking fine-grained event-level assessment and task diversity. To fill this gap, we introduce E.T. Bench (Event-Level & Time-Sensitive Video Understanding Benchmark), a large-scale and high-quality benchmark for open-ended event-level video understanding. Categorized within a 3-level task taxonomy, E.T. Bench encompasses 7.3K samples under 12 tasks with 7K videos (251.4h total length) under 8 domains, providing comprehensive evaluations. We extensively evaluated 8 Image-LLMs and 12 Video-LLMs on our benchmark, and the results reveal that state-of-the-art models for coarse-level (video-level) understanding struggle to solve our fine-grained tasks, e.g., grounding event-of-interests within videos, largely due to the short video context length, improper time representations, and lack of multi-event training data. Focusing on these issues, we further propose a strong baseline model, E.T. Chat, together with an instruction-tuning dataset E.T. Instruct 164K tailored for fine-grained event-level understanding. Our simple but effective solution demonstrates superior performance in multiple scenarios.

arxiv情報

著者 Ye Liu,Zongyang Ma,Zhongang Qi,Yang Wu,Ying Shan,Chang Wen Chen
発行日 2024-09-26 17:53:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク