Rethinking Data Augmentation for Robust Visual Question Answering

要約

データ拡張(DA)(元のトレーニングセットを超える追加のトレーニングサンプルを生成する)は、言語の偏りを軽減するために、今日の偏りのないVQAモデルで広く使用されています。
現在の主流のDA戦略は合成ベースの方法であり、いくつかの視覚領域/単語を編集するか、それらを最初から再生成することによって新しいサンプルを合成します。
ただし、これらの合成サンプルは常に不自然でエラーが発生しやすいものです。
この問題を回避するために、最近のDAの作業では、元の画像とその他の人間が書いた質問をランダムに組み合わせて、新しい拡張サンプルを作成しています。
残念ながら、拡張されたサンプルが妥当な根拠のある答えを持っていることを保証するために、それらはいくつかの質問タイプのヒューリスティックルールのセットを手動で設計します。これはその一般化能力を極端に制限します。
この目的のために、KDDAugと呼ばれるVQA用の新しい知識蒸留ベースのデータ拡張を提案します。
具体的には、まず、合理的な画像と質問のペアの要件を緩和します。これは、あらゆる質問タイプに簡単に適用できます。
次に、知識蒸留(KD)ベースの回答割り当てを設計して、構成されたすべての画像と質問のペアに対して疑似回答を生成します。これは、ドメイン内と配布外の両方の設定に対して堅牢です。
KDDAugはモデルにとらわれないDA戦略であるため、任意のVQAアーキテクチャにシームレスに組み込むことができます。
複数のバックボーンとベンチマークに関する広範なアブレーション研究により、KDDAugの有効性と一般化能力が実証されています。

要約(オリジナル)

Data Augmentation (DA) — generating extra training samples beyond original training set — has been widely-used in today’s unbiased VQA models to mitigate the language biases. Current mainstream DA strategies are synthetic-based methods, which synthesize new samples by either editing some visual regions/words, or re-generating them from scratch. However, these synthetic samples are always unnatural and error-prone. To avoid this issue, a recent DA work composes new augmented samples by randomly pairing pristine images and other human-written questions. Unfortunately, to guarantee augmented samples have reasonable ground-truth answers, they manually design a set of heuristic rules for several question types, which extremely limits its generalization abilities. To this end, we propose a new Knowledge Distillation based Data Augmentation for VQA, dubbed KDDAug. Specifically, we first relax the requirements of reasonable image-question pairs, which can be easily applied to any question types. Then, we design a knowledge distillation (KD) based answer assignment to generate pseudo answers for all composed image-question pairs, which are robust to both in-domain and out-of-distribution settings. Since KDDAug is a model-agnostic DA strategy, it can be seamlessly incorporated into any VQA architectures. Extensive ablation studies on multiple backbones and benchmarks have demonstrated the effectiveness and generalization abilities of KDDAug.

arxiv情報

著者 Long Chen,Yuhang Zheng,Jun Xiao
発行日 2022-07-18 16:30:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM パーマリンク