Interpretable Visual Question Answering via Reasoning Supervision

要約

トランスフォーマーベースのアーキテクチャは、最近、ビジュアル質問応答 (VQA) タスクにおいて顕著なパフォーマンスを実証しました。
しかし、そのようなモデルは重要な視覚的手がかりを無視する可能性が高く、多くの場合、正解を予測するために多峰性のショートカットや言語モダリティの固有のバイアスに依存しており、一般に視覚的根拠の欠如と呼ばれる現象です。
この研究では、常識的な推論を監視信号として活用する視覚的な質問応答のための新しいアーキテクチャを通じて、この欠点を軽減します。
推論の監視は、正解のテキストによる正当性の形式をとり、そのような注釈は大規模な Visual Common Sense Reasoning (VCR) データセットですでに利用可能です。
モデルの視覚的注意は、質問と正しい推論に基づいて学習された注意の分布を揃える類似性損失を通じて、シーンの重要な要素に誘導されます。
私たちは、提案されたアプローチが明示的なグラウンディングアノテーションに関するトレーニングを必要とせずに、モデルの視覚認識能力を向上させ、パフォーマンスの向上につながることを定量的および定性的に実証します。

要約(オリジナル)

Transformer-based architectures have recently demonstrated remarkable performance in the Visual Question Answering (VQA) task. However, such models are likely to disregard crucial visual cues and often rely on multimodal shortcuts and inherent biases of the language modality to predict the correct answer, a phenomenon commonly referred to as lack of visual grounding. In this work, we alleviate this shortcoming through a novel architecture for visual question answering that leverages common sense reasoning as a supervisory signal. Reasoning supervision takes the form of a textual justification of the correct answer, with such annotations being already available on large-scale Visual Common Sense Reasoning (VCR) datasets. The model’s visual attention is guided toward important elements of the scene through a similarity loss that aligns the learned attention distributions guided by the question and the correct reasoning. We demonstrate both quantitatively and qualitatively that the proposed approach can boost the model’s visual perception capability and lead to performance increase, without requiring training on explicit grounding annotations.

arxiv情報

著者 Maria Parelli,Dimitrios Mallis,Markos Diomataris,Vassilis Pitsikalis
発行日 2023-09-07 14:12:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク