JetFormer: An Autoregressive Generative Model of Raw Images and Text

要約

モデリングの制約を削除し、ドメイン全体でアーキテクチャを統合することは、大規模なマルチモーダルモデルのトレーニングにおける最近の進捗の重要な要因となっています。
ただし、これらのモデルのほとんどは、モダリティ固有のエンコーダやデコーダーなど、個別にトレーニングされたコンポーネントの多くに依然として依存しています。
この作業では、画像とテキストの共同生成モデリングをさらに合理化します。
私たちは、個別に前提条件のコンポーネントに依存せずに、生データの可能性を直接最大化するようにトレーニングされ、テキストと画像の両方を理解して生成することができる自動再生デコーダーのみのトランス – ジェットフォーマーを提案します。
具体的には、正規化フローモデルを活用して、自己回帰マルチモーダルトランスと共同で訓練されたソフトトークン画像表現を取得します。
正規化フローモデルは、知覚タスク用の画像エンコーダーと、推論中の画像生成タスク用の画像デコーダーの両方として機能します。
Jetformerは、最近のVQ-VaeおよびVaeベースのベースラインと競争力のあるテキストからイメージまでの生成品質を達成します。
これらのベースラインは、知覚されたものを含む複雑な損失の混合で訓練された前提条件の画像自動エンコーダーに依存しています。
同時に、Jetformerは堅牢な画像理解機能を示します。
私たちの知る限り、Jetformerは、高忠実度の画像を生成し、強い対数尤度の境界を生成できる最初のモデルです。

要約(オリジナル)

Removing modeling constraints and unifying architectures across domains has been a key driver of the recent progress in training large multimodal models. However, most of these models still rely on many separately trained components such as modality-specific encoders and decoders. In this work, we further streamline joint generative modeling of images and text. We propose an autoregressive decoder-only transformer – JetFormer – which is trained to directly maximize the likelihood of raw data, without relying on any separately pretrained components, and can understand and generate both text and images. Specifically, we leverage a normalizing flow model to obtain a soft-token image representation that is jointly trained with an autoregressive multimodal transformer. The normalizing flow model serves as both an image encoder for perception tasks and an image decoder for image generation tasks during inference. JetFormer achieves text-to-image generation quality competitive with recent VQ-VAE- and VAE-based baselines. These baselines rely on pretrained image autoencoders, which are trained with a complex mixture of losses, including perceptual ones. At the same time, JetFormer demonstrates robust image understanding capabilities. To the best of our knowledge, JetFormer is the first model that is capable of generating high-fidelity images and producing strong log-likelihood bounds.

arxiv情報

著者 Michael Tschannen,André Susano Pinto,Alexander Kolesnikov
発行日 2025-05-19 15:26:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク