MixGen: A New Multi-Modal Data Augmentation

要約

データ拡張は、深層学習におけるデータ効率を高めるために必要です。
視覚言語の事前トレーニングの場合、データは以前の作品の画像またはテキストのいずれかでのみ拡張されます。
この論文では、MixGenを紹介します。これは、データ効率をさらに向上させるための視覚言語表現学習のための共同データ拡張です。
画像の補間とテキストの連結によって意味関係が保持された、新しい画像とテキストのペアを生成します。
シンプルで、既存のパイプラインにプラグアンドプレイできます。
CLIP、ViLT、ALBEF、TCLを含む4つのアーキテクチャで、5つのダウンストリームビジョン言語タスクにわたってMixGenを評価し、その汎用性と有効性を示します。
たとえば、ALBEFの事前トレーニングにMixGenを追加すると、ダウンストリームタスクのパフォーマンスが完全に向上します。画像テキストの取得(微調整されたCOCOで+ 6.2%、Flicker30Kゼロショットで+ 5.3%)、視覚的な接地(+ 0.9%
RefCOCO +)、視覚的推論(NLVR $ ^ {2}$で+0.9%)、視覚的質問応答(VQA2.0で+ 0.3%)、および視覚的含意(SNLI-VEで+ 0.4%)。

要約(オリジナル)

Data augmentation is a necessity to enhance data efficiency in deep learning. For vision-language pre-training, data is only augmented either for images or for text in previous works. In this paper, we present MixGen: a joint data augmentation for vision-language representation learning to further improve data efficiency. It generates new image-text pairs with semantic relationships preserved by interpolating images and concatenating text. It’s simple, and can be plug-and-played into existing pipelines. We evaluate MixGen on four architectures, including CLIP, ViLT, ALBEF and TCL, across five downstream vision-language tasks to show its versatility and effectiveness. For example, adding MixGen in ALBEF pre-training leads to absolute performance improvements on downstream tasks: image-text retrieval (+6.2% on COCO fine-tuned and +5.3% on Flicker30K zero-shot), visual grounding (+0.9% on RefCOCO+), visual reasoning (+0.9% on NLVR$^{2}$), visual question answering (+0.3% on VQA2.0), and visual entailment (+0.4% on SNLI-VE).

arxiv情報

著者 Xiaoshuai Hao,Yi Zhu,Srikar Appalaraju,Aston Zhang,Wanqian Zhang,Bo Li,Mu Li
発行日 2022-07-07 16:30:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク