要約
多様なマルチモーダルデータから学習するスケーラブルな視覚言語モデルの構築は、依然として未解決の課題である。本論文では、効率的な視覚言語基盤モデル、すなわちEVEを紹介する。EVEは、1つの統一的な事前学習タスクによってのみ事前学習された、1つの統一的なマルチモーダルTransformerである。具体的には、EVEは視覚と言語の両方を、モダリティを認識する疎なMoE(Mixture-of-Experts)モジュールと統合された共有Transformerネットワーク内にエンコードする。視覚と言語の事前学習タスクを統合するため、EVEは画像とテキストのペアに対してマスク信号モデリングを行い、可視信号からマスク信号(画像ピクセルとテキストトークン)を再構成する。このシンプルかつ効果的な事前学習により、画像-テキスト対比損失と画像-テキストマッチング損失で事前学習したモデルと比較して、学習が3.5倍高速化される。統一されたアーキテクチャと事前学習タスクの組み合わせにより、EVEはスケールアップが容易で、より少ないリソースと高速な学習速度で、より優れたダウンストリームパフォーマンスを実現します。そのシンプルさにもかかわらず、EVEは視覚的質問応答、視覚的推論、画像テキスト検索など、様々な視覚言語下流タスクにおいて最先端の性能を達成している。
要約(オリジナル)
Building scalable vision-language models to learn from diverse, multimodal data remains an open challenge. In this paper, we introduce an Efficient Vision-languagE foundation model, namely EVE, which is one unified multimodal Transformer pre-trained solely by one unified pre-training task. Specifically, EVE encodes both vision and language within a shared Transformer network integrated with modality-aware sparse Mixture-of-Experts (MoE) modules, which capture modality-specific information by selectively switching to different experts. To unify pre-training tasks of vision and language, EVE performs masked signal modeling on image-text pairs to reconstruct masked signals, i.e., image pixels and text tokens, given visible signals. This simple yet effective pre-training objective accelerates training by 3.5x compared to the model pre-trained with Image-Text Contrastive and Image-Text Matching losses. Owing to the combination of the unified architecture and pre-training task, EVE is easy to scale up, enabling better downstream performance with fewer resources and faster training speed. Despite its simplicity, EVE achieves state-of-the-art performance on various vision-language downstream tasks, including visual question answering, visual reasoning, and image-text retrieval.
arxiv情報
著者 | Junyi Chen,Longteng Guo,Jia Sun,Shuai Shao,Zehuan Yuan,Liang Lin,Dongyu Zhang |
発行日 | 2024-03-01 11:22:54+00:00 |
arxivサイト | arxiv_id(pdf) |