MECD+: Unlocking Event-Level Causal Graph Discovery for Video Reasoning

要約

ビデオ因果推論は、因果関係の観点からビデオを高度に理解することを目的としています。
ただし、その範囲には限界があり、主に質問応答パラダイムで実行され、孤立したイベントと基本的な因果関係を含む短いビデオセグメントに焦点を当てており、複数の相互接続されたイベントを含むビデオに対する包括的で構造化された因果関係分析が欠けています。
このギャップを埋めるために、新しいタスクとデータセット、Multi-Event Causal Discovery (MECD) を導入します。
長いビデオにわたって時系列に分布するイベント間の因果関係を明らかにすることを目的としています。
MECD は、イベントの視覚的なセグメントとテキストによる説明を基に、これらのイベント間の因果関係を特定し、結果イベントが発生した理由と方法を説明する包括的で構造化されたイベントレベルのビデオ因果グラフを導き出します。
MECD の課題に対処するために、イベント グレンジャー テストを実行するための効率的なマスクベースのイベント予測モデルを組み込んだ、グレンジャー因果関係法にヒントを得た新しいフレームワークを考案しました。
前提条件イベントがマスクされている場合とマスクされていない場合の予測結果イベントを比較することにより、因果関係を推定します。
さらに、フロントドア調整や反事実推論などの因果推論手法を統合して、因果関係の交絡や錯覚因果関係などの MECD の課題を軽減します。
さらに、より堅牢で一般化された推論を実行するために、コンテキスト チェーン推論が導入されています。
実験では、完全な因果関係を推論する際のフレームワークの有効性が検証され、GPT-4o と VideoChat2 をそれぞれ 5.77% と 2.70% 上回りました。
さらなる実験では、因果関係グラフが、ビデオの質問応答やビデオ イベントの予測などの下流のビデオ理解タスクにも貢献できることが実証されています。

要約(オリジナル)

Video causal reasoning aims to achieve a high-level understanding of videos from a causal perspective. However, it exhibits limitations in its scope, primarily executed in a question-answering paradigm and focusing on brief video segments containing isolated events and basic causal relations, lacking comprehensive and structured causality analysis for videos with multiple interconnected events. To fill this gap, we introduce a new task and dataset, Multi-Event Causal Discovery (MECD). It aims to uncover the causal relations between events distributed chronologically across long videos. Given visual segments and textual descriptions of events, MECD identifies the causal associations between these events to derive a comprehensive and structured event-level video causal graph explaining why and how the result event occurred. To address the challenges of MECD, we devise a novel framework inspired by the Granger Causality method, incorporating an efficient mask-based event prediction model to perform an Event Granger Test. It estimates causality by comparing the predicted result event when premise events are masked versus unmasked. Furthermore, we integrate causal inference techniques such as front-door adjustment and counterfactual inference to mitigate challenges in MECD like causality confounding and illusory causality. Additionally, context chain reasoning is introduced to conduct more robust and generalized reasoning. Experiments validate the effectiveness of our framework in reasoning complete causal relations, outperforming GPT-4o and VideoChat2 by 5.77% and 2.70%, respectively. Further experiments demonstrate that causal relation graphs can also contribute to downstream video understanding tasks such as video question answering and video event prediction.

arxiv情報

著者 Tieyuan Chen,Huabin Liu,Yi Wang,Yihang Chen,Tianyao He,Chaofan Gan,Huanyu He,Weiyao Lin
発行日 2025-01-17 02:27:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク