MAMO: Masked Multimodal Modeling for Fine-Grained Vision-Language Representation Learning

要約

マルチモーダル表現学習は、様々な視覚-言語タスクにおいて有望な改善策を示している。既存の手法の多くは、視覚と言語の間のグローバルレベルのアライメントを構築することに優れているが、効果的なきめ細かい画像-テキスト相互作用には欠けている。本論文では、きめ細かなマルチモーダル表現を学習するために、共同マスクによるマルチモーダルモデリング手法を提案する。本手法は、画像-テキスト入力に対してジョイントマスキングを行い、マスキングされた信号が回復するための暗黙的なターゲットと明示的なターゲットの両方を統合する。暗黙的な目標は、視覚と言語に対する統一的で偏りのない目標を提供し、モデルはマスクされていない入力の潜在的なマルチモーダル表現を予測する。明示的な目標は、高レベルで意味深い情報、すなわち画像パッチの運動量視覚的特徴や単語トークンの概念を回復することによって、マルチモーダル表現をさらに豊かにする。このようなマスクされたモデリングプロセスを通じて、我々のモデルは、きめ細かいマルチモーダル相互作用を学習するだけでなく、高レベルの表現と低レベルまたは中間レベルの予測ターゲット(例えば画像ピクセル)の間の意味的ギャップを回避し、ゼロショットと微調整の両方の設定で良好に動作する意味的に豊かなマルチモーダル表現を生成します。我々の訓練済みモデル(MAMO)は、画像-テキスト検索、視覚的質問応答、視覚的推論、弱教師付き視覚的接地など、様々な下流視覚-言語タスクにおいて最先端の性能を達成した。

要約(オリジナル)

Multimodal representation learning has shown promising improvements on various vision-language tasks. Most existing methods excel at building global-level alignment between vision and language while lacking effective fine-grained image-text interaction. In this paper, we propose a jointly masked multimodal modeling method to learn fine-grained multimodal representations. Our method performs joint masking on image-text input and integrates both implicit and explicit targets for the masked signals to recover. The implicit target provides a unified and debiased objective for vision and language, where the model predicts latent multimodal representations of the unmasked input. The explicit target further enriches the multimodal representations by recovering high-level and semantically meaningful information: momentum visual features of image patches and concepts of word tokens. Through such a masked modeling process, our model not only learns fine-grained multimodal interaction, but also avoids the semantic gap between high-level representations and low- or mid-level prediction targets (e.g. image pixels), thus producing semantically rich multimodal representations that perform well on both zero-shot and fine-tuned settings. Our pre-trained model (named MAMO) achieves state-of-the-art performance on various downstream vision-language tasks, including image-text retrieval, visual question answering, visual reasoning, and weakly-supervised visual grounding.

arxiv情報

著者 Zijia Zhao,Longteng Guo,Xingjian He,Shuai Shao,Zehuan Yuan,Jing Liu
発行日 2023-06-05 14:35:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.CV, cs.LG, cs.MM パーマリンク