Causality-aware Visual Scene Discovery for Cross-Modal Question Reasoning

要約

タイトル:クロスモーダル質問推論の因果関係に注意したビジュアルシーンの発見

要約:

– 通常、ビジュアル質問推論方法は曖昧な原因機構を明示的に発見することができず、交差モーダルのイベントの時間性と因果性を共同モデリングする複雑なイベントレベル理解を無視しています。
– この論文では、Cross-Modal Question Reasoning(CMQR)というイベントレベルのビジュアル質問推論フレームワークを提案し、因果構造を明示的に発見し、因果的な介入によってビジュアルの偽相関を軽減します。
– ビジュアルの因果構造を明示的に発見するために、Visual Causality Discovery(VCD)アーキテクチャが提案され、質問に関するシーンを時間的に発見し、Local-Global Causal Attention Module(LGCAM)という注意ベースのフロントドア因果関係介入モジュールによって視覚的な偽相関を区別します。
– 言語的セマンティクスと空間的・時間的表現の微細な相互作用を整合化するため、Visual-Linguistic Transformer(IVLT)を構築し、視覚的および言語的なコオカレンス相互作用を構築します。
– 4つのデータセットでの大規模な実験により、CMQRによるビジュアルの因果構造の発見と、堅牢な質問推論の達成が示されました。

要約(オリジナル)

Existing visual question reasoning methods usually fail to explicitly discover the inherent causal mechanism and ignore the complex event-level understanding that requires jointly modeling cross-modal event temporality and causality. In this paper, we propose an event-level visual question reasoning framework named Cross-Modal Question Reasoning (CMQR), to explicitly discover temporal causal structure and mitigate visual spurious correlation by causal intervention. To explicitly discover visual causal structure, the Visual Causality Discovery (VCD) architecture is proposed to find question-critical scene temporally and disentangle the visual spurious correlations by attention-based front-door causal intervention module named Local-Global Causal Attention Module (LGCAM). To align the fine-grained interactions between linguistic semantics and spatial-temporal representations, we build an Interactive Visual-Linguistic Transformer (IVLT) that builds the multi-modal co-occurrence interactions between visual and linguistic content. Extensive experiments on four datasets demonstrate the superiority of CMQR for discovering visual causal structures and achieving robust question reasoning.

arxiv情報

著者 Yang Liu,Guanbin Li,Liang Lin
発行日 2023-04-17 08:56:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク