Cross-Modal Causal Relational Reasoning for Event-Level Visual Question Answering

要約

【タイトル】
イベントレベルのビジュアルクエスチョンアンサリングのためのクロスモーダル因果関係推論

【要約】
・従来のビジュアルクエスチョンアンサリング法は、クロスモーダルな偽の相関や、イベントレベルでの推論処理が過剰単純化されており、動画全体にわたる事象の時間的経過、因果関係、およびダイナミクスを捉えきれていない。
・本研究では、イベントレベルのビジュアルクエスチョンアンサリングのタスクに対応するために、クロスモーダル因果関係推論のフレームワークを提案する。
・特に、ビジュアルと言語のモーダリティ間の根本的な因果関係構造を発見するために、原因介入操作のセットが導入される。
・我々のフレームワークであるCross-Modal Causal RelatIonal Reasoning(CMCIR)には、以下の3つのモジュールが含まれる。
1. 原因に注意を払ったビジュアル言語推論(CVLR)モジュール:Front-DoorとBack-Doorの原因介入を介して、ビジュアルと言語の偽の相関を共同的に分離すること。
2. 空間的・時間的変換(STT)モジュール:ビジュアルと言語の意味の微細な相互作用を捕捉すること。
3. ビジュアル言語特徴融合(VLFF)モジュール:グローバルな意味を持つビジュアル言語表現を適応的に学習すること。
・4つのイベントレベルのデータセットでの広範な実験により、CMCIRが優れたビジュアル言語の因果関係構造を発見し、堅牢なイベントレベルのビジュアルクエスチョンアンサリングを実現することを示す。
・データセット、コード、モデルはhttps://github.com/HCPLab-SYSU/CMCIRで利用可能である。

要約(オリジナル)

Existing visual question answering methods often suffer from cross-modal spurious correlations and oversimplified event-level reasoning processes that fail to capture event temporality, causality, and dynamics spanning over the video. In this work, to address the task of event-level visual question answering, we propose a framework for cross-modal causal relational reasoning. In particular, a set of causal intervention operations is introduced to discover the underlying causal structures across visual and linguistic modalities. Our framework, named Cross-Modal Causal RelatIonal Reasoning (CMCIR), involves three modules: i) Causality-aware Visual-Linguistic Reasoning (CVLR) module for collaboratively disentangling the visual and linguistic spurious correlations via front-door and back-door causal interventions; ii) Spatial-Temporal Transformer (STT) module for capturing the fine-grained interactions between visual and linguistic semantics; iii) Visual-Linguistic Feature Fusion (VLFF) module for learning the global semantic-aware visual-linguistic representations adaptively. Extensive experiments on four event-level datasets demonstrate the superiority of our CMCIR in discovering visual-linguistic causal structures and achieving robust event-level visual question answering. The datasets, code, and models are available at https://github.com/HCPLab-SYSU/CMCIR.

arxiv情報

著者 Yang Liu,Guanbin Li,Liang Lin
発行日 2023-04-25 02:47:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CV パーマリンク