Overcoming Language Priors for Visual Question Answering Based on Knowledge Distillation

要約

これまでの研究では、ビジュアル質問応答 (VQA) モデルは、回答の予測において言語の事前分布に依存する傾向があることが指摘されています。
これに関連して、予測は多峰性の知識の包括的な把握ではなく、言語的な近道に依存することが多く、一般化能力が低下します。
この論文では、VQA タスク内の事前依存性のジレンマに対処するために知識の蒸留を活用する新しい方法、つまり KDAR を提案します。
具体的には、よく訓練された教師によるソフトラベルによって促進される正則化効果を利用して、最も一般的な答えへの過剰適合にペナルティを与えます。
ソフト ラベルは正則化の役割を果たし、回答候補の範囲を狭める意味論的なガイダンスも提供します。
さらに、各サンプルの重要性を動的に調整することでバイアスをさらに軽減する、適応的なサンプルごとの再重み付け学習戦略を設計します。
実験結果は、私たちの方法が OOD 設定と IID 設定の両方でパフォーマンスを向上させることを示しています。
私たちの手法は、VQA-CPv2 配布外 (OOD) ベンチマークで最先端のパフォーマンスを達成し、以前の最先端のアプローチを大幅に上回ります。

要約(オリジナル)

Previous studies have pointed out that visual question answering (VQA) models are prone to relying on language priors for answer predictions. In this context, predictions often depend on linguistic shortcuts rather than a comprehensive grasp of multimodal knowledge, which diminishes their generalization ability. In this paper, we propose a novel method, namely, KDAR, leveraging knowledge distillation to address the prior-dependency dilemmas within the VQA task. Specifically, the regularization effect facilitated by soft labels from a well-trained teacher is employed to penalize overfitting to the most common answers. The soft labels, which serve a regularization role, also provide semantic guidance that narrows the range of candidate answers. Additionally, we design an adaptive sample-wise reweighting learning strategy to further mitigate bias by dynamically adjusting the importance of each sample. Experimental results demonstrate that our method enhances performance in both OOD and IID settings. Our method achieves state-of-the-art performance on the VQA-CPv2 out-of-distribution (OOD) benchmark, significantly outperforming previous state-of-the-art approaches.

arxiv情報

著者 Daowan Peng,Wei Wei
発行日 2025-01-10 03:42:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク