CausalVQA: A Physically Grounded Causal Reasoning Benchmark for Video Models

要約

物理世界での因果関係のモデルの理解をプローブする質問回答ペアで構成されるビデオ質問応答(VQA)のベンチマークデータセットであるCasualVQAを紹介します。
既存のVQAベンチマークは、実際のビデオの表面知覚的理解に焦点を当てる傾向があります。
CausalVQAは、実際のシナリオに基づいた挑戦的な質問を提示することにより重要なギャップを埋め、5つの質問タイプを使用して、異なるアクションとイベントの可能性のある結果を予測するモデルの能力に焦点を当て、反事実、仮説、予想、計画、および記述的です。
モデルが些細なショートカットを悪用することを妨げる品質管理メカニズムを設計し、モデルが言語の手がかりではなく深い視覚的理解に基づいて答えを必要とします。
現在のフロンティアマルチモーダルモデルは、特に予想と仮説的な質問で、ベンチマークの人間のパフォーマンスを大幅に下回っています。
これは、現在のシステムが、空間的な推論、物理的原則の理解、および実世界の設定で正確な予測を行うための可能な代替案の理解を活用するための課題を強調しています。

要約(オリジナル)

We introduce CausalVQA, a benchmark dataset for video question answering (VQA) composed of question-answer pairs that probe models’ understanding of causality in the physical world. Existing VQA benchmarks either tend to focus on surface perceptual understanding of real-world videos, or on narrow physical reasoning questions created using simulation environments. CausalVQA fills an important gap by presenting challenging questions that are grounded in real-world scenarios, while focusing on models’ ability to predict the likely outcomes of different actions and events through five question types: counterfactual, hypothetical, anticipation, planning and descriptive. We designed quality control mechanisms that prevent models from exploiting trivial shortcuts, requiring models to base their answers on deep visual understanding instead of linguistic cues. We find that current frontier multimodal models fall substantially below human performance on the benchmark, especially on anticipation and hypothetical questions. This highlights a challenge for current systems to leverage spatial-temporal reasoning, understanding of physical principles, and comprehension of possible alternatives to make accurate predictions in real-world settings.

arxiv情報

著者 Aaron Foss,Chloe Evans,Sasha Mitts,Koustuv Sinha,Ammar Rizvi,Justine T. Kao
発行日 2025-06-11 17:10:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, I.2.10 パーマリンク