D-AR: Diffusion via Autoregressive Models

要約

このホワイトペーパーでは、標準の次のトークン予測のファッションでのバニラの自己回帰手順として画像拡散プロセスを再構築する新しいパラダイムであるAutore-Gurishing Models(D-AR)を介した拡散を示します。
画像を離散トークンのシーケンスに変換するトークンザーを設計することから始めます。ここでは、異なる位置のトークンをピクセル空間の異なる拡散除去ステップにデコードできます。
拡散特性のおかげで、これらのトークンは自然に粗から洗練された順序に続き、自己回帰モデリングに直接貸します。
したがって、基礎となる設計(因果マスクまたはトレーニング/推論戦略のいずれか)を変更せずに、これらのトークンに標準の次のトークン予測を適用し、そのような順次自動回復トークン生成は、画像空間の拡散手順を直接反映しています。
つまり、自動脱着モデルがトークンの増分を生成すると、これらのトークンをストリーミング方法で対応する拡散除去ステップに直接デコードできます。
私たちのパイプラインは自然にいくつかの興味をそそるプロパティを明らかにします。たとえば、トークンのサブセットのみを生成するときに一貫したプレビューをサポートし、ゼロショットレイアウト制御合成を有効にします。
標準のImagenetベンチマークでは、256個の離散トークンを備えた775m Llamaバックボーンを使用して、2.09 FIDを達成します。
私たちの作品が、特に大規模な言語モデルを使用した視覚合成の統一された自己回帰アーキテクチャに関する将来の研究を刺激できることを願っています。
コードとモデルはhttps://github.com/showlab/d-arで入手できます

要約(オリジナル)

This paper presents Diffusion via Autoregressive models (D-AR), a new paradigm recasting the image diffusion process as a vanilla autoregressive procedure in the standard next-token-prediction fashion. We start by designing the tokenizer that converts images into sequences of discrete tokens, where tokens in different positions can be decoded into different diffusion denoising steps in the pixel space. Thanks to the diffusion properties, these tokens naturally follow a coarse-to-fine order, which directly lends itself to autoregressive modeling. Therefore, we apply standard next-token prediction on these tokens, without modifying any underlying designs (either causal masks or training/inference strategies), and such sequential autoregressive token generation directly mirrors the diffusion procedure in image space. That is, once the autoregressive model generates an increment of tokens, we can directly decode these tokens into the corresponding diffusion denoising step in the streaming manner. Our pipeline naturally reveals several intriguing properties, for example, it supports consistent previews when generating only a subset of tokens and enables zero-shot layout-controlled synthesis. On the standard ImageNet benchmark, our method achieves 2.09 FID using a 775M Llama backbone with 256 discrete tokens. We hope our work can inspire future research on unified autoregressive architectures of visual synthesis, especially with large language models. Code and models will be available at https://github.com/showlab/D-AR

arxiv情報

著者 Ziteng Gao,Mike Zheng Shou
発行日 2025-05-29 17:09:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク