要約
タイトル: ガイドされた拡散モデルの蒸留
要約:
– 固定の画像クラス分類器を必要としないガイドされた拡散モデルは、高解像度の画像生成に非常に効果的であり、DALLE-2、Stable Diffusion、Imagenなどの大規模な拡散フレームワークで広く使用されています。
– しかし、このモデルは推論時に2つの拡散モデル、条件付きモデルと無条件モデルの両方を評価する必要があり、数十から数百回評価する必要があるため、計算上の問題があります。
– この制限に対処するため、私たちはガイドされた拡散モデルを蒸留し、サンプリングが速いモデルに変換する手法を提案しています。
– 予めトレーニングされたガイドされたモデルを使い、出力を条件付けと無条件のモデルの結合に合わせた単一のモデルを学習してから、そのモデルを逐次的に拡散モデルに蒸留します。
– 画像クラス分類器でトレーニングされた標準的な拡散モデルの場合、私たちの手法は、ImageNet 64×64とCIFAR-10で4ステップのサンプリングで元のモデルと比較可能なグラフィックを生成し、サンプリング速度が最大256倍速くなります。
– 潜在空間にトレーニングされた拡散モデル(Stable Diffusionなど)の場合、私たちの方法を用いると、ImageNet 256×256とLAIONデータセットの既存手法と比較して、少なくとも10倍高速に推論を行い、高品質な画像を生成できます。
– さらに、私たちの手法は、テキストによるガイドされた画像編集やインペイントにも効果的であり、2~4つのデノイジングステップで高品質な結果を生成できます。
要約(オリジナル)
Classifier-free guided diffusion models have recently been shown to be highly effective at high-resolution image generation, and they have been widely used in large-scale diffusion frameworks including DALLE-2, Stable Diffusion and Imagen. However, a downside of classifier-free guided diffusion models is that they are computationally expensive at inference time since they require evaluating two diffusion models, a class-conditional model and an unconditional model, tens to hundreds of times. To deal with this limitation, we propose an approach to distilling classifier-free guided diffusion models into models that are fast to sample from: Given a pre-trained classifier-free guided model, we first learn a single model to match the output of the combined conditional and unconditional models, and then we progressively distill that model to a diffusion model that requires much fewer sampling steps. For standard diffusion models trained on the pixel-space, our approach is able to generate images visually comparable to that of the original model using as few as 4 sampling steps on ImageNet 64×64 and CIFAR-10, achieving FID/IS scores comparable to that of the original model while being up to 256 times faster to sample from. For diffusion models trained on the latent-space (e.g., Stable Diffusion), our approach is able to generate high-fidelity images using as few as 1 to 4 denoising steps, accelerating inference by at least 10-fold compared to existing methods on ImageNet 256×256 and LAION datasets. We further demonstrate the effectiveness of our approach on text-guided image editing and inpainting, where our distilled model is able to generate high-quality results using as few as 2-4 denoising steps.
arxiv情報
著者 | Chenlin Meng,Robin Rombach,Ruiqi Gao,Diederik P. Kingma,Stefano Ermon,Jonathan Ho,Tim Salimans |
発行日 | 2023-04-12 21:23:35+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI