Logical Implications for Visual Question Answering Consistency

要約

視覚的質問応答 (VQA) モデルの最近の大幅な進歩にもかかわらず、一貫性のない、または矛盾した回答は、その真の推論能力に疑問を投げかけ続けています。
ただし、ほとんどの提案された方法は、モデルの一貫性を確保するために、質問と回答のペアに対して間接的な戦略または強力な仮定を使用します。
代わりに、論理的な矛盾を直接減らすことによってモデルのパフォーマンスを向上させることを目的とした新しい戦略を提案します。
これを行うために、幅広い VQA モデルで使用でき、質問と回答のペア間の論理関係を知ることに依存する新しい一貫性損失用語を導入します。
このような情報は通常、VQA データセットでは利用できませんが、専用の言語モデルを使用してこれらの論理関係を推測し、提案された整合性損失関数でこれらを使用することを提案します。
VQA Introspect と DME データセットで広範な実験を行い、さまざまなアーキテクチャや設定で堅牢でありながら、私たちの方法が最先端の VQA モデルを改善することを示しています。

要約(オリジナル)

Despite considerable recent progress in Visual Question Answering (VQA) models, inconsistent or contradictory answers continue to cast doubt on their true reasoning capabilities. However, most proposed methods use indirect strategies or strong assumptions on pairs of questions and answers to enforce model consistency. Instead, we propose a novel strategy intended to improve model performance by directly reducing logical inconsistencies. To do this, we introduce a new consistency loss term that can be used by a wide range of the VQA models and which relies on knowing the logical relation between pairs of questions and answers. While such information is typically not available in VQA datasets, we propose to infer these logical relations using a dedicated language model and use these in our proposed consistency loss function. We conduct extensive experiments on the VQA Introspect and DME datasets and show that our method brings improvements to state-of-the-art VQA models, while being robust across different architectures and settings.

arxiv情報

著者 Sergio Tascon-Morales,Pablo Márquez-Neila,Raphael Sznitman
発行日 2023-03-16 16:00:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク