Causal Diffusion Transformers for Generative Modeling

要約

拡散モデルの自己回帰 (AR) 対応物として因果拡散を導入します。
これは、離散モダリティと連続モダリティの両方に適しており、LLaMA や GPT などの既存のネクスト トークン予測モデルと互換性のあるネクスト トークン予測フレームワークです。
最近の研究では拡散と AR モデルを組み合わせようとしていますが、逐次因数分解を拡散モデルに導入すると、そのパフォーマンスが大幅に向上し、AR 生成モードと拡散生成モード間のスムーズな移行が可能になることを示しています。
したがって、私たちは CausalFusion を提案します。これは、連続するトークンと拡散ノイズ レベルにわたってデータを二重因数分解し、ImageNet 生成ベンチマークで最先端の結果をもたらすと同時に、任意の数を生成する AR の利点も享受できるデコーダ専用の変換器です。
コンテキスト内の推論のためのトークンの。
さらに、共同画像生成およびキャプション モデルを通じて CausalFusion のマルチモーダル機能を実証し、ゼロショットのインコンテキスト画像操作に対する CausalFusion の機能を紹介します。
この取り組みが、離散データと連続データに対するマルチモーダル モデルのトレーニングに関する新たな視点をコミュニティに提供できることを願っています。

要約(オリジナル)

We introduce Causal Diffusion as the autoregressive (AR) counterpart of Diffusion models. It is a next-token(s) forecasting framework that is friendly to both discrete and continuous modalities and compatible with existing next-token prediction models like LLaMA and GPT. While recent works attempt to combine diffusion with AR models, we show that introducing sequential factorization to a diffusion model can substantially improve its performance and enables a smooth transition between AR and diffusion generation modes. Hence, we propose CausalFusion – a decoder-only transformer that dual-factorizes data across sequential tokens and diffusion noise levels, leading to state-of-the-art results on the ImageNet generation benchmark while also enjoying the AR advantage of generating an arbitrary number of tokens for in-context reasoning. We further demonstrate CausalFusion’s multimodal capabilities through a joint image generation and captioning model, and showcase CausalFusion’s ability for zero-shot in-context image manipulations. We hope that this work could provide the community with a fresh perspective on training multimodal models over discrete and continuous data.

arxiv情報

著者 Chaorui Deng,Deyao Zhu,Kunchang Li,Shi Guang,Haoqi Fan
発行日 2024-12-17 18:45:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク