JetFormer: An Autoregressive Generative Model of Raw Images and Text

要約

モデリングの制約を取り除き、ドメイン全体でアーキテクチャを統合することが、大規模なマルチモーダル モデルのトレーニングにおける最近の進歩の主な推進力となっています。
ただし、これらのモデルのほとんどは、依然としてモダリティ固有のエンコーダーやデコーダーなど、個別にトレーニングされた多くのコンポーネントに依存しています。
この作業では、画像とテキストの共同生成モデリングをさらに合理化します。
私たちは、個別に事前トレーニングされたコンポーネントに依存することなく、生データの尤度を直接最大化するようにトレーニングされた自己回帰デコーダー専用トランスフォーマー JetFormer を提案します。また、テキストと画像の両方を理解して生成できます。
具体的には、正規化フロー モデルを活用して、自己回帰マルチモーダル トランスフォーマーと共同でトレーニングされたソフト トークンの画像表現を取得します。
正規化フロー モデルは、推論中の認識タスクの画像エンコーダーと画像生成タスクの画像デコーダーの両方として機能します。
JetFormer は、最近の VQ-VAE および VAE ベースのベースラインに匹敵するテキストから画像への生成品質を実現します。
これらのベースラインは、知覚的な損失を含む複雑な損失の混合を使用してトレーニングされた、事前トレーニングされた画像オートエンコーダーに依存しています。
同時に、JetFormer は堅牢な画像理解機能を実証します。
私たちの知る限り、JetFormer は、高忠実度の画像を生成し、強力な対数尤度限界を生成できる最初のモデルです。

要約(オリジナル)

Removing modeling constraints and unifying architectures across domains has been a key driver of the recent progress in training large multimodal models. However, most of these models still rely on many separately trained components such as modality-specific encoders and decoders. In this work, we further streamline joint generative modeling of images and text. We propose an autoregressive decoder-only transformer – JetFormer – which is trained to directly maximize the likelihood of raw data, without relying on any separately pretrained components, and can understand and generate both text and images. Specifically, we leverage a normalizing flow model to obtain a soft-token image representation that is jointly trained with an autoregressive multimodal transformer. The normalizing flow model serves as both an image encoder for perception tasks and an image decoder for image generation tasks during inference. JetFormer achieves text-to-image generation quality competitive with recent VQ-VAE- and VAE-based baselines. These baselines rely on pretrained image autoencoders, which are trained with a complex mixture of losses, including perceptual ones. At the same time, JetFormer demonstrates robust image understanding capabilities. To the best of our knowledge, JetFormer is the first model that is capable of generating high-fidelity images and producing strong log-likelihood bounds.

arxiv情報

著者 Michael Tschannen,André Susano Pinto,Alexander Kolesnikov
発行日 2024-11-29 14:14:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク