Masked Vision and Language Modeling for Multi-modal Representation Learning

要約

本論文では、視覚と言語(V+L)の表現学習において、マスクされた信号のモデリングをどのように利用するかを研究する。マスクドランゲージモデリング(MLM)とマスクドイメージモデリング(MIM)を別々に開発するのではなく、マスクされた視覚と言語の共同モデリングを構築することを提案する。これは、画像とテキストが対になったデータの性質(画像とテキストはほぼ同じ情報を伝えるが、フォーマットが異なる)により動機づけられている。また、あるモダリティの信号が他のモダリティを条件として再構成されることにより、言語トークンと画像パッチの間のクロスモダルアライメントを暗黙的に学習することができる。様々なV+Lタスクに対する実験から、提案手法は大量のデータを用いて最先端の性能を達成するだけでなく、学習データが限られた領域では他の競合手法を大幅に上回る性能を持つことが示された。

要約(オリジナル)

In this paper, we study how to use masked signal modeling in vision and language (V+L) representation learning. Instead of developing masked language modeling (MLM) and masked image modeling (MIM) independently, we propose to build joint masked vision and language modeling, where the masked signal of one modality is reconstructed with the help from another modality. This is motivated by the nature of image-text paired data that both of the image and the text convey almost the same information but in different formats. The masked signal reconstruction of one modality conditioned on another modality can also implicitly learn cross-modal alignment between language tokens and image patches. Our experiments on various V+L tasks show that the proposed method not only achieves state-of-the-art performances by using a large amount of data, but also outperforms the other competitors by a significant margin in the regimes of limited training data.

arxiv情報

著者 Gukyeong Kwon,Zhaowei Cai,Avinash Ravichandran,Erhan Bas,Rahul Bhotika,Stefano Soatto
発行日 2022-08-03 15:11:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.CV, cs.LG パーマリンク