TOMATO: Assessing Visual Temporal Reasoning Capabilities in Multimodal Foundation Models

要約

既存のベンチマークでは、ビデオ理解のための時間的コンテキストを活用する際に、最先端のマルチモーダル基盤モデル (MFM) によって達成される顕著なパフォーマンスが強調されることがよくあります。
しかし、モデルは本当に視覚的な時間的推論をどれだけうまく実行できるのでしょうか?
既存のベンチマークを調査したところ、多くの問題は 1 つ、少数、または順序の異なるフレームを使用することで解決できるため、MFM のこの機能は過大評価されている可能性が高いことが示されています。
現在の視覚的時間推論タスクを体系的に調べるために、対応するメトリクスを備えた 3 つの原則を提案します。(1) マルチフレーム ゲイン、(2) フレーム順序感度、および (3) フレーム情報格差。
これらの原則に従って、ビデオ理解における MFM の時間的推論能力を厳密に評価するために作成された新しいベンチマークである TOMATO (時間的推論マルチモーダル評価) を紹介します。
TOMATO は、6 つのタスク (アクションの数、方向、回転、形状と傾向、速度と頻度、視覚的手がかり) にわたる、慎重に精選された人間による注釈付きの 1,484 の質問で構成され、805 の自己録画ビデオおよび自作ビデオを含む 1,417 のビデオに適用されます。
、人間中心の、現実世界の、シミュレートされたシナリオを網羅します。
私たちの総合的な評価により、人間モデルと最もパフォーマンスの高いモデルとのパフォーマンスの差が 57.3% であることが明らかになりました。
さらに、私たちの詳細な分析により、現在の MFM におけるこのギャップを超えた、より根本的な制限が明らかになりました。
孤立したフレーム内のイベントを正確に認識できますが、これらのフレームを連続したシーケンスとして解釈することはできません。
私たちは、TOMATO が次世代 MFM を評価するための重要なテストベッドとして機能し、ビデオ モダリティを通じて人間世界のダイナミクスを理解できる AI システムを開発するコミュニティへの呼びかけとして機能すると信じています。

要約(オリジナル)

Existing benchmarks often highlight the remarkable performance achieved by state-of-the-art Multimodal Foundation Models (MFMs) in leveraging temporal context for video understanding. However, how well do the models truly perform visual temporal reasoning? Our study of existing benchmarks shows that this capability of MFMs is likely overestimated as many questions can be solved by using a single, few, or out-of-order frames. To systematically examine current visual temporal reasoning tasks, we propose three principles with corresponding metrics: (1) Multi-Frame Gain, (2) Frame Order Sensitivity, and (3) Frame Information Disparity. Following these principles, we introduce TOMATO, Temporal Reasoning Multimodal Evaluation, a novel benchmark crafted to rigorously assess MFMs’ temporal reasoning capabilities in video understanding. TOMATO comprises 1,484 carefully curated, human-annotated questions spanning six tasks (i.e., action count, direction, rotation, shape & trend, velocity & frequency, and visual cues), applied to 1,417 videos, including 805 self-recorded and -generated videos, that encompass human-centric, real-world, and simulated scenarios. Our comprehensive evaluation reveals a human-model performance gap of 57.3% with the best-performing model. Moreover, our in-depth analysis uncovers more fundamental limitations beyond this gap in current MFMs. While they can accurately recognize events in isolated frames, they fail to interpret these frames as a continuous sequence. We believe TOMATO will serve as a crucial testbed for evaluating the next-generation MFMs and as a call to the community to develop AI systems capable of comprehending human world dynamics through the video modality.

arxiv情報

著者 Ziyao Shangguan,Chuhan Li,Yuxuan Ding,Yanan Zheng,Yilun Zhao,Tesca Fitzgerald,Arman Cohan
発行日 2024-10-30 17:50:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク