VLMixer: Unpaired Vision-Language Pre-training via Cross-Modal CutMix

要約

既存のビジョン言語事前トレーニング(VLP)の方法は、主にペアの画像テキストデータセットに依存しています。これらのデータセットは、膨大な人的労力によって注釈が付けられるか、インターネットからクロールされた後、精巧なデータクリーニング技術が続きます。
適切に配置された画像とテキストのペアへの依存を減らすために、大規模なテキストのみと画像のみのコーパスを直接活用することが期待されています。
この論文は、対になっていないVLPにおける暗黙のクロスモーダルアライメント学習のためのデータ拡張方法、すなわちクロスモーダルCutMix(CMC)を提案します。
具体的には、CMCは、自然な文をテキストビューからマルチモーダルビューに変換します。この場合、文内の視覚的に根拠のある単語は、同様のセマンティクスを持つ多様な画像パッチにランダムに置き換えられます。
提案されたCMCにはいくつかの魅力的な特性があります。
まず、整列されたデータが不足している問題に取り組むために意味的な意味を損なわずに、データの多様性を強化します。
次に、ユニモーダルデータにクロスモーダルノイズを付加することにより、モデルをガイドして、モダリティ間のトークンレベルの相互作用を学習し、ノイズ除去を改善します。
さらに、VLMixerと呼ばれる新しい対になっていないVLPメソッドを紹介します。これは、CMCを対照学習と統合して、ユニモーダルビューとマルチモーダルビューをまとめ、さまざまなモダリティ間のインスタンスレベルの調整を改善します。
5つのダウンストリームタスクに関する広範な実験は、VLMixerが以前の最先端の対になっていないVLPメソッドを超える可能性があることを示しています。

要約(オリジナル)

Existing vision-language pre-training (VLP) methods primarily rely on paired image-text datasets, which are either annotated by enormous human labors, or crawled from the internet followed by elaborate data cleaning techniques. To reduce the dependency on well-aligned image-text pairs, it is promising to directly leverage the large-scale text-only and image-only corpora. This paper proposes a data augmentation method, namely cross-modal CutMix (CMC), for implicit cross-modal alignment learning in unpaired VLP. Specifically, CMC transforms natural sentences from the textual view into a multi-modal view, where visually-grounded words in a sentence are randomly replaced by diverse image patches with similar semantics. There are several appealing proprieties of the proposed CMC. First, it enhances the data diversity while keeping the semantic meaning intact for tackling problems where the aligned data are scarce; Second, by attaching cross-modal noise on uni-modal data, it guides models to learn token-level interactions across modalities for better denoising. Furthermore, we present a new unpaired VLP method, dubbed as VLMixer, that integrates CMC with contrastive learning to pull together the uni-modal and multi-modal views for better instance-level alignments among different modalities. Extensive experiments on five downstream tasks show that VLMixer could surpass previous state-of-the-art unpaired VLP methods.

arxiv情報

著者 Teng Wang,Wenhao Jiang,Zhichao Lu,Feng Zheng,Ran Cheng,Chengguo Yin,Ping Luo
発行日 2022-06-17 17:56:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク