要約
最近の拡散確率モデル (DPM) は、生成されたコンテンツの優れた能力を示していますが、複雑な順方向プロセスに悩まされることが多く、その結果、逆方向プロセスの非効率なソリューションが生じ、サンプリング時間が長くなります。
この論文では、生成効率と速度を向上させるために、複雑な拡散プロセスを 2 つの比較的単純なプロセスに分離することを提案する拡散プロセス自体に焦点を当て、前述の課題に対処することを目的としています。
特に、Ito 拡散プロセスに基づく DDM (分離拡散モデル) と呼ばれる新しい拡散パラダイムを提案します。このパラダイムでは、画像分布は明示的な遷移確率によって近似され、ノイズ パスは標準的なウィーナー プロセスによって制御されます。
拡散プロセスを切り離すことで学習の困難さが軽減され、明示的な遷移確率により生成速度が大幅に向上することがわかりました。
我々は、DPM の新しいトレーニング目標を証明します。これにより、モデルはノイズ成分と画像成分を個別に予測する方法を学習できるようになります。
さらに、新しい順拡散方程式を考慮して、常微分方程式 (ODE) ベースのアクセラレータを使用せずに、より少ない生成ステップを自然にサポートする DDM の逆ノイズ除去式を導き出します。
私たちの実験では、DDM が少数の関数評価設定では以前の DPM よりも大幅にパフォーマンスが優れ、長い関数評価設定でも同等のパフォーマンスが得られることが実証されました。
また、私たちのフレームワークが画像条件付き生成と高解像度画像合成に適用でき、わずか 10 回の関数評価で高品質の画像を生成できることも示します。
要約(オリジナル)
Recent diffusion probabilistic models (DPMs) have shown remarkable abilities of generated content, however, they often suffer from complex forward processes, resulting in inefficient solutions for the reversed process and prolonged sampling times. In this paper, we aim to address the aforementioned challenges by focusing on the diffusion process itself that we propose to decouple the intricate diffusion process into two comparatively simpler process to improve the generative efficacy and speed. In particular, we present a novel diffusion paradigm named DDM (Decoupled Diffusion Models) based on the Ito diffusion process, in which the image distribution is approximated by an explicit transition probability while the noise path is controlled by the standard Wiener process. We find that decoupling the diffusion process reduces the learning difficulty and the explicit transition probability improves the generative speed significantly. We prove a new training objective for DPM, which enables the model to learn to predict the noise and image components separately. Moreover, given the novel forward diffusion equation, we derive the reverse denoising formula of DDM that naturally supports fewer steps of generation without ordinary differential equation (ODE) based accelerators. Our experiments demonstrate that DDM outperforms previous DPMs by a large margin in fewer function evaluations setting and gets comparable performances in long function evaluations setting. We also show that our framework can be applied to image-conditioned generation and high-resolution image synthesis, and that it can generate high-quality images with only 10 function evaluations.
arxiv情報
著者 | Yuhang Huang,Zheng Qin,Xinwang Liu,Kai Xu |
発行日 | 2023-08-01 17:12:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google