TemporalBench: Benchmarking Fine-grained Temporal Understanding for Multimodal Video Models

要約

マルチモーダルビデオの理解と生成には、きめの細かい時間ダイナミクスを理解することが重要です。
きめの細かい時間的アノテーションが欠如しているため、既存のビデオ ベンチマークはほとんどが静止画像ベンチマークに似ており、時間的理解のためのモデルを評価する能力がありません。
このペーパーでは、ビデオのきめ細かい時間的理解を評価することに特化した新しいベンチマークである TemporalBench を紹介します。
TemporalBench は、ビデオ クリップの時間的ダイナミクスを詳細に説明する約 2,000 の高品質人間による注釈から派生した、約 10,000 のビデオ質問と回答のペアで構成されています。
その結果、当社のベンチマークは、アクションの頻度、動きの大きさ、イベントの順序など、さまざまな時間的理解と推論能力を評価するための独自のテストベッドを提供します。さらに、ビデオの質問応答やキャプションなど、短いものと短いものの両方のさまざまなタスクの評価が可能になります。
長時間ビデオの理解に加え、マルチモーダルビデオ埋め込みモデルやテキスト生成モデルなどのさまざまなモデルもサポートします。
結果は、GPT-4o のような最先端のモデルは、TemporalBench で質問応答精度が 38.5% しか達成できないことを示し、時間的理解において人間と AI の間に大きなギャップ (~30%) があることを示しています。
さらに、LLM がネガティブなキャプションの微妙な変化を検出し、その予測の手がかりとして一元的な説明を見つけることができるという、多肢選択 QA の重大な落とし穴に気づきました。そこで私たちは、そのようなバイアスを修正するために Multiple Binary Accuracy (MBA) を提案します。
私たちは、TemporalBench がモデルの時間的推論能力を向上させる研究を促進できることを願っています。
データセットと評価コードの両方が利用可能になります。

要約(オリジナル)

Understanding fine-grained temporal dynamics is crucial for multimodal video comprehension and generation. Due to the lack of fine-grained temporal annotations, existing video benchmarks mostly resemble static image benchmarks and are incompetent at evaluating models for temporal understanding. In this paper, we introduce TemporalBench, a new benchmark dedicated to evaluating fine-grained temporal understanding in videos. TemporalBench consists of ~10K video question-answer pairs, derived from ~2K high-quality human annotations detailing the temporal dynamics in video clips. As a result, our benchmark provides a unique testbed for evaluating various temporal understanding and reasoning abilities such as action frequency, motion magnitude, event order, etc. Moreover, it enables evaluations on various tasks like both video question answering and captioning, both short and long video understanding, as well as different models such as multimodal video embedding models and text generation models. Results show that state-of-the-art models like GPT-4o achieve only 38.5% question answering accuracy on TemporalBench, demonstrating a significant gap (~30%) between humans and AI in temporal understanding. Furthermore, we notice a critical pitfall for multi-choice QA where LLMs can detect the subtle changes in negative captions and find a centralized description as a cue for its prediction, where we propose Multiple Binary Accuracy (MBA) to correct such bias. We hope that TemporalBench can foster research on improving models’ temporal reasoning capabilities. Both dataset and evaluation code will be made available.

arxiv情報

著者 Mu Cai,Reuben Tan,Jianrui Zhang,Bocheng Zou,Kai Zhang,Feng Yao,Fangrui Zhu,Jing Gu,Yiwu Zhong,Yuzhang Shang,Yao Dou,Jaden Park,Jianfeng Gao,Yong Jae Lee,Jianwei Yang
発行日 2024-10-15 17:55:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG パーマリンク