Rethinking Data Augmentation for Robust Visual Question Answering

要約

元のトレーニング セットを超える追加のトレーニング サンプルを生成する Data Augmentation (DA) は、今日の偏りのない VQA モデルで広く使用されており、言語の偏りを緩和しています。
現在の主流の DA 戦略は合成ベースの方法であり、いくつかの視覚領域/単語を編集するか、それらをゼロから再生成することによって新しいサンプルを合成します。
ただし、これらの合成サンプルは常に不自然でエラーが発生しやすいものです。
この問題を回避するために、最近の DA 作業では、手付かずの画像とその他の人間が作成した質問をランダムに組み合わせて、新しい拡張サンプルを構成しています。
残念なことに、拡張されたサンプルが妥当な正解を確実に得られるようにするために、いくつかの質問タイプに対して一連のヒューリスティック ルールを手動で設計しているため、一般化能力が大幅に制限されています。
この目的のために、KDDAug と呼ばれる、VQA 用の新しい知識蒸留ベースのデータ拡張を提案します。
具体的には、最初に合理的な画像と質問のペアの要件を緩和します。これは、どの質問タイプにも簡単に適用できます。
次に、知識蒸留 (KD) ベースの回答割り当てを設計して、構成されたすべての画像と質問のペアに対して疑似回答を生成します。これは、ドメイン内および配布外の設定の両方に対して堅牢です。
KDDAug はモデルに依存しない DA 戦略であるため、あらゆる VQA アーキテクチャにシームレスに組み込むことができます。
複数のバックボーンとベンチマークに関する広範なアブレーション研究により、KDDAug の有効性と一般化能力が実証されています。

要約(オリジナル)

Data Augmentation (DA) — generating extra training samples beyond original training set — has been widely-used in today’s unbiased VQA models to mitigate the language biases. Current mainstream DA strategies are synthetic-based methods, which synthesize new samples by either editing some visual regions/words, or re-generating them from scratch. However, these synthetic samples are always unnatural and error-prone. To avoid this issue, a recent DA work composes new augmented samples by randomly pairing pristine images and other human-written questions. Unfortunately, to guarantee augmented samples have reasonable ground-truth answers, they manually design a set of heuristic rules for several question types, which extremely limits its generalization abilities. To this end, we propose a new Knowledge Distillation based Data Augmentation for VQA, dubbed KDDAug. Specifically, we first relax the requirements of reasonable image-question pairs, which can be easily applied to any question types. Then, we design a knowledge distillation (KD) based answer assignment to generate pseudo answers for all composed image-question pairs, which are robust to both in-domain and out-of-distribution settings. Since KDDAug is a model-agnostic DA strategy, it can be seamlessly incorporated into any VQA architectures. Extensive ablation studies on multiple backbones and benchmarks have demonstrated the effectiveness and generalization abilities of KDDAug.

arxiv情報

著者 Long Chen,Yuhang Zheng,Jun Xiao
発行日 2022-09-15 16:10:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM パーマリンク