Write and Paint: Generative Vision-Language Models are Unified Modal Learners

要約

視覚言語の事前トレーニングにおける最近の進歩により、さまざまな視覚言語タスクの最先端が押し出され、マシンはマルチモーダルな書き込み (画像からテキストへの生成) と描画 (テキストからテキストへの生成) の能力が向上しました。
画像生成)。
ただし、これら 2 つの重要な機能を一緒に学習して相互に強化し、用途が広く強力なマルチモーダル基盤モデルを作成できるかどうかを調査する研究はほとんどありません。
この作業では、書き込みとペイントを同時に学習する際の対称的な生成視覚言語事前トレーニングの可能性を明らかにし、DaVinci という名前の新しい統合モーダル モデルを提案します。
-画像とテキストのペアに対する監視対象。
提案されたプレフィックス マルチモーダル モデリング フレームワークのおかげで、DaVinci はトレーニングが簡単で、膨大なデータに拡張でき、執筆と描画の両方のタスクに適応でき、他の視覚、テキスト、およびマルチモーダルな理解タスクにも強力です。
DaVinci は、幅広い 27 世代/理解タスクで競争力のあるパフォーマンスを達成し、視覚/言語生成事前トレーニングを組み合わせることの優位性を示しています。
さらに、さまざまなスケールの事前トレーニング データセットで、さまざまな視覚言語の事前トレーニング目標のパフォーマンスを、異種の広範な分布範囲で慎重にベンチマークします。
私たちの結果は、言語入力と視覚入力の両方で自己監督を活用する可能性を示し、さまざまなデータ スケールでの将来の比較のための新しく強力なベースラインを確立します。
コードと事前トレーニング済みのモデルは、https://github.com/shizhediao/DaVinci で入手できます。

要約(オリジナル)

Recent advances in vision-language pre-training have pushed the state-of-the-art on various vision-language tasks, making machines more capable of multi-modal writing (image-to-text generation) and painting (text-to-image generation). However, few studies investigate if these two essential capabilities can be learned together and boost each other, making a versatile and powerful multi-modal foundation model. In this work, we disclose the potential of symmetric generative vision-language pre-training in learning to write and paint concurrently, and propose a new unified modal model, named DaVinci, trained with prefix language modeling and prefix image modeling, a simple generative self-supervised objective on image-text pairs. Thanks to the proposed prefix multi-modal modeling framework, DaVinci is simple to train, scalable to huge data, adaptable to both writing and painting tasks, and also strong on other vision, text, and multi-modal understanding tasks. DaVinci achieves competitive performance on a wide range of 27 generation/understanding tasks and demonstrates the superiority of combining vision/language generative pre-training. Furthermore, we carefully benchmark the performance of different vision-language pre-training objectives on different scales of pre-training datasets on a heterogeneous and broad distribution coverage. Our results demonstrate the potential of exploiting self-supervision in both language and vision inputs, and establish new, stronger baselines for future comparisons at different data scales. The code and pre-trained models are available at https://github.com/shizhediao/DaVinci.

arxiv情報

著者 Shizhe Diao,Wangchunshu Zhou,Xinsong Zhang,Jiawei Wang
発行日 2023-02-16 17:01:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG パーマリンク