要約
生成的事前トレーニングによって学習された双方向マルチモーダルトランスフォーマーであるVL-BEiTと呼ばれるビジョン言語基盤モデルを紹介します。
私たちのミニマリストソリューションは、共有トランスフォーマーを使用して、モノモーダルデータとマルチモーダルデータの両方でマスクされた予測を実行します。
具体的には、画像とテキストのペアでマスクされた視覚言語モデリング、テキストでマスクされた言語モデリング、画像でマスクされた画像モデリングを実行します。
VL-BEiTは、1つの統合された事前トレーニングタスク、1つの共有バックボーン、および1段階のトレーニングでゼロから学習されます。
私たちの方法は、概念的に単純で経験的に効果的です。
実験結果は、VL-BEiTが、視覚的な質問応答、視覚的な推論、画像テキストの検索など、さまざまな視覚言語のベンチマークで強力な結果を取得することを示しています。
さらに、私たちの方法は、転送可能な視覚的特徴を学習し、画像分類、およびセマンティックセグメンテーションで競争力のあるパフォーマンスを実現します。
要約(オリジナル)
We introduce a vision-language foundation model called VL-BEiT, which is a bidirectional multimodal Transformer learned by generative pretraining. Our minimalist solution conducts masked prediction on both monomodal and multimodal data with a shared Transformer. Specifically, we perform masked vision-language modeling on image-text pairs, masked language modeling on texts, and masked image modeling on images. VL-BEiT is learned from scratch with one unified pretraining task, one shared backbone, and one-stage training. Our method is conceptually simple and empirically effective. Experimental results show that VL-BEiT obtains strong results on various vision-language benchmarks, such as visual question answering, visual reasoning, and image-text retrieval. Moreover, our method learns transferable visual features, achieving competitive performance on image classification, and semantic segmentation.
arxiv情報
著者 | Hangbo Bao,Wenhui Wang,Li Dong,Furu Wei |
発行日 | 2022-06-02 16:14:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google