Cross-Modal Causal Relational Reasoning for Event-Level Visual Question Answering

要約

既存の視覚的質問応答方法は、視覚的モダリティと言語的モダリティから誤った相関関係を捉える傾向があり、支配的な視覚的証拠と正しい質問意図に基づいて真実に推論を促進する真のカジュアルなメカニズムを発見できません。
さらに、既存の方法は通常、クロスモーダル イベントの一時性、因果関係、およびダイナミクスを共同でモデル化するための因果推論の強力な認知能力を必要とする、マルチモーダル設定における複雑なイベント レベルの理解を無視します。
この作業では、新しい視点からのイベントレベルの視覚的質問応答、つまり、クロスモーダル因果関係推論に焦点を当て、因果介入法を導入して偽の相関を軽減し、視覚と言語の統合のための真の因果構造を発見します。
モダリティ。
具体的には、クロスモーダル因果関係推論(CMCIR)という名前の新しいイベントレベルの視覚的質問応答フレームワークを提案し、堅牢なカジュアル性を意識した視覚的言語的質問応答を実現します。
視覚的および言語的モダリティの因果構造を明らかにするために、精巧に設計されたフロントドアおよびバックドアの因果的介入モジュールを介して、視覚的および言語的な偽の相関関係を共同で解きほぐす、新しい因果関係を認識する視覚言語推論 (CVLR) モジュールが提案されています。
言語セマンティクスと時空間表現の間のきめの細かい相互作用を発見するために、視覚コンテンツと言語コンテンツの間のマルチモーダル共起相互作用を構築する新しい時空間トランスフォーマー (STT) を構築します。
大規模なイベント レベルの都市データセット SUTD-TrafficQA と 3 つのベンチマーク実世界データセット TGIF-QA、MSVD-QA、および MSRVTT-QA に関する広範な実験は、視覚言語因果構造を発見するための CMCIR の有効性を示しています。

要約(オリジナル)

Existing visual question answering methods tend to capture the spurious correlations from visual and linguistic modalities, and fail to discover the true casual mechanism that facilitates reasoning truthfully based on the dominant visual evidence and the correct question intention. Additionally, the existing methods usually ignore the complex event-level understanding in multi-modal settings that requires a strong cognitive capability of causal inference to jointly model cross-modal event temporality, causality, and dynamics. In this work, we focus on event-level visual question answering from a new perspective, i.e., cross-modal causal relational reasoning, by introducing causal intervention methods to mitigate the spurious correlations and discover the true causal structures for the integration of visual and linguistic modalities. Specifically, we propose a novel event-level visual question answering framework named Cross-Modal Causal RelatIonal Reasoning (CMCIR), to achieve robust casuality-aware visual-linguistic question answering. To uncover the causal structures for visual and linguistic modalities, the novel Causality-aware Visual-Linguistic Reasoning (CVLR) module is proposed to collaboratively disentangle the visual and linguistic spurious correlations via elaborately designed front-door and back-door causal intervention modules. To discover the fine-grained interactions between linguistic semantics and spatial-temporal representations, we build a novel Spatial-Temporal Transformer (STT) that builds the multi-modal co-occurrence interactions between visual and linguistic content. Extensive experiments on large-scale event-level urban dataset SUTD-TrafficQA and three benchmark real-world datasets TGIF-QA, MSVD-QA, and MSRVTT-QA demonstrate the effectiveness of our CMCIR for discovering visual-linguistic causal structures.

arxiv情報

著者 Yang Liu,Guanbin Li,Liang Lin
発行日 2022-08-15 08:15:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク