DART: Denoising Autoregressive Transformer for Scalable Text-to-Image Generation

要約

拡散モデルは、ビジュアル生成の主要なアプローチとなっています。
これらは、入力に徐々にノイズを追加するマルコフ プロセスのノイズを除去することによってトレーニングされます。
私たちは、マルコフ特性によりモデルが生成軌道を完全に利用する能力を制限し、トレーニングと推論の非効率につながると主張します。
この論文では、自己回帰 (AR) と拡散を非マルコフの枠組み内で統合するトランスフォーマー ベースのモデルである DART を提案します。
DART は、標準言語モデルと同じアーキテクチャを持つ AR モデルを使用して、画像パッチを空間的およびスペクトル的に繰り返しノイズ除去します。
DART は画像の量子化に依存しないため、柔軟性を維持しながらより効果的な画像モデリングが可能になります。
さらに、DART は、統一モデル内のテキスト データと画像データの両方を使用してシームレスにトレーニングします。
私たちのアプローチは、クラス条件付きタスクとテキストから画像への生成タスクで競争力のあるパフォーマンスを実証し、従来の拡散モデルに代わるスケーラブルで効率的な代替手段を提供します。
この統合フレームワークを通じて、DART はスケーラブルで高品質な画像合成の新しいベンチマークを設定します。

要約(オリジナル)

Diffusion models have become the dominant approach for visual generation. They are trained by denoising a Markovian process that gradually adds noise to the input. We argue that the Markovian property limits the models ability to fully utilize the generation trajectory, leading to inefficiencies during training and inference. In this paper, we propose DART, a transformer-based model that unifies autoregressive (AR) and diffusion within a non-Markovian framework. DART iteratively denoises image patches spatially and spectrally using an AR model with the same architecture as standard language models. DART does not rely on image quantization, enabling more effective image modeling while maintaining flexibility. Furthermore, DART seamlessly trains with both text and image data in a unified model. Our approach demonstrates competitive performance on class-conditioned and text-to-image generation tasks, offering a scalable, efficient alternative to traditional diffusion models. Through this unified framework, DART sets a new benchmark for scalable, high-quality image synthesis.

arxiv情報

著者 Jiatao Gu,Yuyang Wang,Yizhe Zhang,Qihang Zhang,Dinghuai Zhang,Navdeep Jaitly,Josh Susskind,Shuangfei Zhai
発行日 2024-10-10 17:41:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク