VLMAE: Vision-Language Masked Autoencoder

要約

画像と言語のモデリングは、大規模な画像とテキストのペア データからマルチモーダル表現を学習することを目的としたビジョン言語事前トレーニング (VLP) にとって非常に重要です。
ただし、ほとんどの既存の VLP メソッドは、画像とテキストの特徴間の相互作用のモデル化に重点を置いており、画像とテキスト間の情報の不均衡を無視しているため、焦点バイアスに苦しんでいることがわかります。
この問題に対処するために、ビジョン言語マスク オートエンコーダー フレームワーク (VLMAE) を提案します。
VLMAE は視覚的な生成学習を採用しており、モデルがきめ細かく偏りのない機能を取得するのを容易にします。
以前の作業とは異なり、VLMAE はイメージ内のほぼすべての重要なパッチに注意を払い、より包括的な理解を提供します。
広範な実験により、VLMAE は、視覚的な質問への応答、画像テキストの検索、視覚的なグラウンディングなど、さまざまなビジョン言語のダウンストリーム タスクで優れたパフォーマンスを発揮し、トレーニング前の速度が最大 20% 向上することが実証されています。

要約(オリジナル)

Image and language modeling is of crucial importance for vision-language pre-training (VLP), which aims to learn multi-modal representations from large-scale paired image-text data. However, we observe that most existing VLP methods focus on modeling the interactions between image and text features while neglecting the information disparity between image and text, thus suffering from focal bias. To address this problem, we propose a vision-language masked autoencoder framework (VLMAE). VLMAE employs visual generative learning, facilitating the model to acquire fine-grained and unbiased features. Unlike the previous works, VLMAE pays attention to almost all critical patches in an image, providing more comprehensive understanding. Extensive experiments demonstrate that VLMAE achieves better performance in various vision-language downstream tasks, including visual question answering, image-text retrieval and visual grounding, even with up to 20% pre-training speedup.

arxiv情報

著者 Sunan He,Taian Guo,Tao Dai,Ruizhi Qiao,Chen Wu,Xiujun Shu,Bo Ren
発行日 2022-08-19 14:39:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク