このギャップを埋めるために、新しいタスクとデータセット、Multi-Event Causal Discovery (MECD) を導入します。
MECD は、イベントの視覚的なセグメントとテキストによる説明を基に、これらのイベント間の因果関係を特定し、結果イベントが発生した理由と方法を説明する包括的で構造化されたイベントレベルのビデオ因果グラフを導き出します。
MECD の課題に対処するために、イベント グレンジャー テストを実行するための効率的なマスクベースのイベント予測モデルを組み込んだ、グレンジャー因果関係法にヒントを得た新しいフレームワークを考案しました。
さらに、フロントドア調整や反事実推論などの因果推論手法を統合して、因果関係の交絡や錯覚因果関係などの MECD の課題を軽減します。
さらに、より堅牢で一般化された推論を実行するために、コンテキスト チェーン推論が導入されています。
実験では、完全な因果関係を推論する際のフレームワークの有効性が検証され、GPT-4o と VideoChat2 をそれぞれ 5.77% と 2.70% 上回りました。
さらなる実験では、因果関係グラフが、ビデオの質問応答やビデオ イベントの予測などの下流のビデオ理解タスクにも貢献できることが実証されています。
Video causal reasoning aims to achieve a high-level understanding of videos from a causal perspective. However, it exhibits limitations in its scope, primarily executed in a question-answering paradigm and focusing on brief video segments containing isolated events and basic causal relations, lacking comprehensive and structured causality analysis for videos with multiple interconnected events. To fill this gap, we introduce a new task and dataset, Multi-Event Causal Discovery (MECD). It aims to uncover the causal relations between events distributed chronologically across long videos. Given visual segments and textual descriptions of events, MECD identifies the causal associations between these events to derive a comprehensive and structured event-level video causal graph explaining why and how the result event occurred. To address the challenges of MECD, we devise a novel framework inspired by the Granger Causality method, incorporating an efficient mask-based event prediction model to perform an Event Granger Test. It estimates causality by comparing the predicted result event when premise events are masked versus unmasked. Furthermore, we integrate causal inference techniques such as front-door adjustment and counterfactual inference to mitigate challenges in MECD like causality confounding and illusory causality. Additionally, context chain reasoning is introduced to conduct more robust and generalized reasoning. Experiments validate the effectiveness of our framework in reasoning complete causal relations, outperforming GPT-4o and VideoChat2 by 5.77% and 2.70%, respectively. Further experiments demonstrate that causal relation graphs can also contribute to downstream video understanding tasks such as video question answering and video event prediction.
著者 | Tieyuan Chen,Huabin Liu,Yi Wang,Yihang Chen,Tianyao He,Chaofan Gan,Huanyu He,Weiyao Lin |
発行日 | 2025-01-16 15:30:54+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google