Jointly Training Large Autoregressive Multimodal Models

要約

近年、言語およびテキストから画像へのモデルの大規模な事前トレーニングの進歩により、機械学習の分野に革命が起きました。
しかし、これら 2 つのモダリティを、シームレスなマルチモーダル出力を生成できる単一の堅牢なモデルに統合することは、依然として大きな課題です。
このギャップに対処するために、既存のテキストと画像生成モデルを体系的に融合するモジュール式アプローチである Joint Autoregressive Mixture (JAM) フレームワークを紹介します。
また、混合モーダル生成タスクに合わせた、特化されたデータ効率の高い命令チューニング戦略も導入します。
最終的な命令調整モデルは、高品質のマルチモーダル出力の生成において比類のないパフォーマンスを実証し、この目的のために明示的に設計された最初のモデルを表します。

要約(オリジナル)

In recent years, advances in the large-scale pretraining of language and text-to-image models have revolutionized the field of machine learning. Yet, integrating these two modalities into a single, robust model capable of generating seamless multimodal outputs remains a significant challenge. To address this gap, we present the Joint Autoregressive Mixture (JAM) framework, a modular approach that systematically fuses existing text and image generation models. We also introduce a specialized, data-efficient instruction-tuning strategy, tailored for mixed-modal generation tasks. Our final instruct-tuned model demonstrates unparalleled performance in generating high-quality multimodal outputs and represents the first model explicitly designed for this purpose.

arxiv情報

著者 Emanuele Aiello,Lili Yu,Yixin Nie,Armen Aghajanyan,Barlas Oguz
発行日 2023-09-27 10:40:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG パーマリンク