CausalChaos! Dataset for Comprehensive Causal Action Question Answering Over Longer Causal Chains Grounded in Dynamic Visual Scenes

要約

因果関係のあるビデオ質問応答 (QA) はますます関心を集めていますが、既存のデータセットには因果関係推論の深さが欠けていることがよくあります。
このギャップに対処するために、私たちは漫画のユニークな特性を利用し、象徴的な漫画「トムとジェリー」シリーズに基づいて構築された、斬新で挑戦的な因果的 Why-QA データセットである CausalChaos! を構築しました。
漫画では、アニメーターがイベント間の表現力豊かで明確な因果関係を作成して、一貫したストーリーラインを形成できるアニメーションの原理が使用されています。
これらの特性を利用して、示唆に富む質問とマルチレベルの回答 (回答と詳細な因果関係の説明) とともに、私たちの質問には、キャラクターとビジュアル シーンの間の複数の動的な相互作用を相互接続する因果連鎖が含まれます。
これらの要因により、モデルには、より困難だが明確に定義された因果関係を解決することが求められます。
さらに難しい、因果関係を混乱させるバージョンなど、難しい不正解マイニングも紹介します。
モデルのパフォーマンスは良好ですが、特に自由回答形式では改善の余地が多くあります。
私たちは、より高度で明示的な因果関係モデリングと、視覚と言語の共同モデリングを、今後の取り組みに焦点を当てるべき当面の領域として特定します。
他の補完的なデータセットと同様に、私たちの新しい挑戦的なデータセットは、この分野での開発への道を切り開くでしょう。

要約(オリジナル)

Causal video question answering (QA) has garnered increasing interest, yet existing datasets often lack depth in causal reasoning. To address this gap, we capitalize on the unique properties of cartoons and construct CausalChaos!, a novel, challenging causal Why-QA dataset built upon the iconic ‘Tom and Jerry’ cartoon series. Cartoons use the principles of animation that allow animators to create expressive, unambiguous causal relationships between events to form a coherent storyline. Utilizing these properties, along with thought-provoking questions and multi-level answers (answer and detailed causal explanation), our questions involve causal chains that interconnect multiple dynamic interactions between characters and visual scenes. These factors demand models to solve more challenging, yet well-defined causal relationships. We also introduce hard incorrect answer mining, including a causally confusing version that is even more challenging. While models perform well, there is much room for improvement, especially, on open-ended answers. We identify more advanced/explicit causal relationship modeling & joint modeling of vision and language as the immediate areas for future efforts to focus upon. Along with the other complementary datasets, our new challenging dataset will pave the way for these developments in the field.

arxiv情報

著者 Paritosh Parmar,Eric Peh,Ruirui Chen,Ting En Lam,Yuhan Chen,Elston Tan,Basura Fernando
発行日 2024-06-14 17:46:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG パーマリンク