CRIPP-VQA: Counterfactual Reasoning about Implicit Physical Properties via Video Question Answering

要約

動画は、物体、その目に見える特性、動き、異なる物体間の相互作用を捉えることが多い。また、物体は質量などの物理的な特性を持っていますが、画像処理パイプラインでは直接捉えることができません。しかし、物体の相対的な動きや衝突によってもたらされるダイナミクスを手がかりに、これらの物性を推定することができる。本論文では、シーン内の物体の暗黙的な物理特性を推論するための新しいビデオ質問応答データセットであるCRIPP-VQAを紹介します。CRIPP-VQAには、動作中の物体の動画が収録されており、動作の効果に関する反実仮想推論、目標に到達するための計画に関する質問、物体の可視特性に関する記述質問などが注釈付きで含まれています。CRIPP-VQAのテストセットでは、学習分布に含まれない質量、摩擦係数、初期速度を持つ物体の動画像など、分布から外れた設定での評価が可能である。本論文で取り上げる暗黙的な性質と、先行研究である明示的な性質に関する質問に答えるという点で、我々の実験では驚くべき大きな性能差があることが明らかになった。

要約(オリジナル)

Videos often capture objects, their visible properties, their motion, and the interactions between different objects. Objects also have physical properties such as mass, which the imaging pipeline is unable to directly capture. However, these properties can be estimated by utilizing cues from relative object motion and the dynamics introduced by collisions. In this paper, we introduce CRIPP-VQA, a new video question answering dataset for reasoning about the implicit physical properties of objects in a scene. CRIPP-VQA contains videos of objects in motion, annotated with questions that involve counterfactual reasoning about the effect of actions, questions about planning in order to reach a goal, and descriptive questions about visible properties of objects. The CRIPP-VQA test set enables evaluation under several out-of-distribution settings — videos with objects with masses, coefficients of friction, and initial velocities that are not observed in the training distribution. Our experiments reveal a surprising and significant performance gap in terms of answering questions about implicit properties (the focus of this paper) and explicit properties of objects (the focus of prior work).

arxiv情報

著者 Maitreya Patel,Tejas Gokhale,Chitta Baral,Yezhou Yang
発行日 2022-11-07 18:55:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.CV パーマリンク