JetFormer: An Autoregressive Generative Model of Raw Images and Text


モデリングの制約を取り除き、ドメイン全体でアーキテクチャを統合することが、大規模なマルチモーダル モデルのトレーニングにおける最近の進歩の主な推進力となっています。
私たちは、個別に事前トレーニングされたコンポーネントに依存することなく、生データの尤度を直接最大化するようにトレーニングされた自己回帰デコーダー専用トランスフォーマー JetFormer を提案します。また、テキストと画像の両方を理解して生成できます。
具体的には、正規化フロー モデルを活用して、自己回帰マルチモーダル トランスフォーマーと共同でトレーニングされたソフト トークンの画像表現を取得します。
正規化フロー モデルは、推論中の認識タスクの画像エンコーダーと画像生成タスクの画像デコーダーの両方として機能します。
JetFormer は、最近の VQ-VAE および VAE ベースのベースラインに匹敵するテキストから画像への生成品質を実現します。
同時に、JetFormer は堅牢な画像理解機能を実証します。
私たちの知る限り、JetFormer は、高忠実度の画像を生成し、強力な対数尤度限界を生成できる最初のモデルです。


Removing modeling constraints and unifying architectures across domains has been a key driver of the recent progress in training large multimodal models. However, most of these models still rely on many separately trained components such as modality-specific encoders and decoders. In this work, we further streamline joint generative modeling of images and text. We propose an autoregressive decoder-only transformer – JetFormer – which is trained to directly maximize the likelihood of raw data, without relying on any separately pretrained components, and can understand and generate both text and images. Specifically, we leverage a normalizing flow model to obtain a soft-token image representation that is jointly trained with an autoregressive multimodal transformer. The normalizing flow model serves as both an image encoder for perception tasks and an image decoder for image generation tasks during inference. JetFormer achieves text-to-image generation quality competitive with recent VQ-VAE- and VAE-based baselines. These baselines rely on pretrained image autoencoders, which are trained with a complex mixture of losses, including perceptual ones. At the same time, JetFormer demonstrates robust image understanding capabilities. To the best of our knowledge, JetFormer is the first model that is capable of generating high-fidelity images and producing strong log-likelihood bounds.


著者 Michael Tschannen,André Susano Pinto,Alexander Kolesnikov
発行日 2024-11-29 14:14:59+00:00
