Knowledge-Based Counterfactual Queries for Visual Question Answering

要約

視覚質問応答(VQA)は、視覚と言語を組み合わせた人気のあるタスクであり、多くの関連する実装が文献に掲載されている。VQAモデルの説明可能性と頑健性の問題にアプローチする試みはいくつかあるが、モデルに依存しない方法でそのような課題を探る手段として、反事実を採用するものは非常に少ない。本研究では、反事実的摂動を通じてVQAモデルの挙動を説明し、頑健性を調査するための体系的手法を提案する。このため、構造化された知識ベースを利用して、言語モダリティを対象とした決定論的で最適かつ制御可能な単語レベルの置換を実行し、そのような反事実的入力に対するモデルの応答を評価する。最後に、反実仮想に基づく局所的・大域的な説明を定性的に抽出し、VQAモデルの挙動を解釈する上で有益であることを証明する。入力された質問の異なる品詞をターゲットとした様々な摂動タイプを実行することで、異なる敵対的状況におけるモデルの応答の比較を通じて、モデルの推論に対する洞察を得ることができる。全体として、モデルの意思決定プロセスにおける可能なバイアス、予想されるパターン、予想外のパターンを明らかにし、分析によって示されるように、定量的・定性的にパフォーマンスに影響を与えます。

要約(オリジナル)

Visual Question Answering (VQA) has been a popular task that combines vision and language, with numerous relevant implementations in literature. Even though there are some attempts that approach explainability and robustness issues in VQA models, very few of them employ counterfactuals as a means of probing such challenges in a model-agnostic way. In this work, we propose a systematic method for explaining the behavior and investigating the robustness of VQA models through counterfactual perturbations. For this reason, we exploit structured knowledge bases to perform deterministic, optimal and controllable word-level replacements targeting the linguistic modality, and we then evaluate the model’s response against such counterfactual inputs. Finally, we qualitatively extract local and global explanations based on counterfactual responses, which are ultimately proven insightful towards interpreting VQA model behaviors. By performing a variety of perturbation types, targeting different parts of speech of the input question, we gain insights to the reasoning of the model, through the comparison of its responses in different adversarial circumstances. Overall, we reveal possible biases in the decision-making process of the model, as well as expected and unexpected patterns, which impact its performance quantitatively and qualitatively, as indicated by our analysis.

arxiv情報

著者 Theodoti Stoikou,Maria Lymperaiou,Giorgos Stamou
発行日 2023-03-05 08:00:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク