要約
拡散確率モデル (DPM) は、高忠実度画像合成の事実上のアプローチとして登場し、連続 VAE 潜在に拡散プロセスを操作します。これは、大規模言語モデル (LLM) で採用されるテキスト生成方法とは大きく異なります。
この論文では、再帰的トークン予測メカニズムを通じて拡散プロセスを強化し、それによって離散拡散の分野を開拓する、新しい生成フレームワークである再帰的拡散確率モデル (RDPM) を紹介します。
RDPM は、画像の潜在表現にガウス ノイズを段階的に導入し、それらを再帰的な方法でベクトル量子化トークンにエンコードすることにより、離散値ドメインでの独自の拡散プロセスを促進します。
このプロセスでは、後続のタイムステップのトークン コードを繰り返し予測し、損失関数の観点から GPT スタイルのモデルに合わせて、初期の標準ガウス ノイズをソース データ分布に変換します。
RDPM は、わずかな推論ステップしか必要としないという速度の利点を活かしながら、優れたパフォーマンスを発揮します。
このモデルは、拡散プロセスを活用して高品質の生成を保証するだけでなく、連続信号を一連の高忠実度の離散トークンに変換することで、テキストなどの他の離散トークンとの統合された最適化戦略を維持します。
私たちは、この研究が、特に画像、ビデオ、オーディオなどの連続信号ドメインとテキストを統合することによって、マルチモーダル生成のための統一モデルの開発に貢献することを期待しています。
コードとモデルの重みをオープンソース コミュニティにリリースします。
要約(オリジナル)
Diffusion Probabilistic Models (DPMs) have emerged as the de facto approach for high-fidelity image synthesis, operating diffusion processes on continuous VAE latent, which significantly differ from the text generation methods employed by Large Language Models (LLMs). In this paper, we introduce a novel generative framework, the Recurrent Diffusion Probabilistic Model (RDPM), which enhances the diffusion process through a recurrent token prediction mechanism, thereby pioneering the field of Discrete Diffusion. By progressively introducing Gaussian noise into the latent representations of images and encoding them into vector-quantized tokens in a recurrent manner, RDPM facilitates a unique diffusion process on discrete-value domains. This process iteratively predicts the token codes for subsequent timesteps, transforming the initial standard Gaussian noise into the source data distribution, aligning with GPT-style models in terms of the loss function. RDPM demonstrates superior performance while benefiting from the speed advantage of requiring only a few inference steps. This model not only leverages the diffusion process to ensure high-quality generation but also converts continuous signals into a series of high-fidelity discrete tokens, thereby maintaining a unified optimization strategy with other discrete tokens, such as text. We anticipate that this work will contribute to the development of a unified model for multimodal generation, specifically by integrating continuous signal domains such as images, videos, and audio with text. We will release the code and model weights to the open-source community.
arxiv情報
著者 | Wu Xiaoping,Hu Jie,Wei Xiaoming |
発行日 | 2024-12-24 12:28:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google