Visual Grounding Methods for VQA are Working for the Wrong Reasons!

要約

既存のビジュアル質問応答 (VQA) 手法は、正しい理由から正しい答えを生成するのではなく、データセットのバイアスや偽の統計的相関を悪用する傾向があります。
この問題に対処するために、VQA の最近のバイアス軽減方法では、VQA モデルの基礎をより良くするために視覚的な手がかり (人間の注意マップなど) を組み込むことが提案されており、目覚ましい利益が得られています。
ただし、パフォーマンスの向上は視覚的根拠の向上の結果ではなく、言語事前分布への過剰適合を防ぐ正則化効果によるものであることを示します。
たとえば、実際には適切な人間ベースの合図を提供する必要はないことがわかりました。
ランダムで知覚できない合図も同様の改善をもたらします。
この観察に基づいて、外部アノテーションを必要とせず、しかも VQA-CPv2 でほぼ最先端のパフォーマンスを達成する、より単純な正則化スキームを提案します。

要約(オリジナル)

Existing Visual Question Answering (VQA) methods tend to exploit dataset biases and spurious statistical correlations, instead of producing right answers for the right reasons. To address this issue, recent bias mitigation methods for VQA propose to incorporate visual cues (e.g., human attention maps) to better ground the VQA models, showcasing impressive gains. However, we show that the performance improvements are not a result of improved visual grounding, but a regularization effect which prevents over-fitting to linguistic priors. For instance, we find that it is not actually necessary to provide proper, human-based cues; random, insensible cues also result in similar improvements. Based on this observation, we propose a simpler regularization scheme that does not require any external annotations and yet achieves near state-of-the-art performance on VQA-CPv2.

arxiv情報

著者 Robik Shrestha,Kushal Kafle,Christopher Kanan
発行日 2024-04-23 13:38:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク