Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model

要約

離散データと連続データに対してマルチモーダル モデルをトレーニングするためのレシピである Transfusion を紹介します。
Transfusion は、言語モデリングの損失関数 (次のトークン予測) と拡散を組み合わせて、混合モダリティ シーケンス上で単一のトランスフォーマーをトレーニングします。
私たちは、テキストと画像データの混合物上で最大 7B パラメータまでの複数の輸血モデルをゼロから事前トレーニングし、さまざまな単一およびクロスモーダル ベンチマークに関するスケーリング則を確立します。
私たちの実験によると、Transfusion は、画像を量子化し、離散画像トークンに対して言語モデルをトレーニングするよりも大幅に優れたスケーリングを実現します。
モダリティ固有のエンコード層とデコード層を導入することで、輸血モデルのパフォーマンスをさらに向上させることができ、各画像をわずか 16 パッチに圧縮することもできます。
さらに、輸血レシピを 7B パラメータと 2T マルチモーダル トークンにスケーリングすると、同様のスケールの拡散モデルや言語モデルと同等の画像とテキストを生成できるモデルが生成され、両方の利点を享受できることを実証します。

要約(オリジナル)

We introduce Transfusion, a recipe for training a multi-modal model over discrete and continuous data. Transfusion combines the language modeling loss function (next token prediction) with diffusion to train a single transformer over mixed-modality sequences. We pretrain multiple Transfusion models up to 7B parameters from scratch on a mixture of text and image data, establishing scaling laws with respect to a variety of uni- and cross-modal benchmarks. Our experiments show that Transfusion scales significantly better than quantizing images and training a language model over discrete image tokens. By introducing modality-specific encoding and decoding layers, we can further improve the performance of Transfusion models, and even compress each image to just 16 patches. We further demonstrate that scaling our Transfusion recipe to 7B parameters and 2T multi-modal tokens produces a model that can generate images and text on a par with similar scale diffusion models and language models, reaping the benefits of both worlds.

arxiv情報

著者 Chunting Zhou,Lili Yu,Arun Babu,Kushal Tirumala,Michihiro Yasunaga,Leonid Shamis,Jacob Kahn,Xuezhe Ma,Luke Zettlemoyer,Omer Levy
発行日 2024-08-20 17:48:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク