Towards More Faithful Natural Language Explanation Using Multi-Level Contrastive Learning in VQA

要約

ビジュアル質問回答における自然言語説明 (VQA-NLE) は、自然言語文を生成することでモデルの意思決定プロセスを説明し、ブラックボックス システムに対するユーザーの信頼を高めることを目的としています。
既存の事後手法は、もっともらしい説明を得る上で大きな進歩を遂げています。
しかし、そのような事後的な説明は人間の論理的推論と必ずしも一致するとは限らず、次のような問題があります。 1) 演繹的不満足性、生成された説明は論理的に答えを導かない。
2) 事実の不一致。モデルは、画像内の事実を考慮せずに、回答に対する反事実的な説明を改ざんします。
3) 意味論的な摂動に対する鈍感さ。モデルは小さな摂動によって引き起こされる意味論的な変化を認識できません。
これらの問題により、モデルによって生成される説明の忠実性が低下します。
上記の問題に対処するために、私たちは、セマンティックを備えた VQA 用の新しい自己教師あり \textbf{M}究極レベル \textbf{C}ontrastive \textbf{L} 収益ベースの自然言語 \textbf{E}xplanation モデル (MCLE) を提案します。
-レベル、画像レベル、インスタンスレベルの事実と反事実のサンプル。
MCLE は、識別特徴を抽出し、視覚的な質問と回答を含む説明から特徴空間を調整して、より一貫性のある説明を生成します。
当社では、広範な実験、アブレーション分析、ケーススタディを実施して、2 つの VQA-NLE ベンチマークに対する当社の手法の有効性を実証しています。

要約(オリジナル)

Natural language explanation in visual question answer (VQA-NLE) aims to explain the decision-making process of models by generating natural language sentences to increase users’ trust in the black-box systems. Existing post-hoc methods have achieved significant progress in obtaining a plausible explanation. However, such post-hoc explanations are not always aligned with human logical inference, suffering from the issues on: 1) Deductive unsatisfiability, the generated explanations do not logically lead to the answer; 2) Factual inconsistency, the model falsifies its counterfactual explanation for answers without considering the facts in images; and 3) Semantic perturbation insensitivity, the model can not recognize the semantic changes caused by small perturbations. These problems reduce the faithfulness of explanations generated by models. To address the above issues, we propose a novel self-supervised \textbf{M}ulti-level \textbf{C}ontrastive \textbf{L}earning based natural language \textbf{E}xplanation model (MCLE) for VQA with semantic-level, image-level, and instance-level factual and counterfactual samples. MCLE extracts discriminative features and aligns the feature spaces from explanations with visual question and answer to generate more consistent explanations. We conduct extensive experiments, ablation analysis, and case study to demonstrate the effectiveness of our method on two VQA-NLE benchmarks.

arxiv情報

著者 Chengen Lai,Shengli Song,Shiqi Meng,Jingyang Li,Sitong Yan,Guangneng Hu
発行日 2023-12-21 05:51:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク