On Distillation of Guided Diffusion Models

要約

分類子を使用しない誘導拡散モデルは、高解像度の画像生成に非常に効果的であることが最近示されており、DALLE-2、Stable Diffusion、Imagen などの大規模な拡散フレームワークで広く使用されています。
ただし、分類器を使用しないガイド付き拡散モデルの欠点は、クラス条件付きモデルと無条件モデルの 2 つの拡散モデルを数十回から数百回評価する必要があるため、推論時に計算コストが高くつくことです。
この制限に対処するために、分類器を使用しない誘導拡散モデルを抽出して、サンプリングが高速なモデルにするアプローチを提案します。
条件付きモデルと無条件モデルを組み合わせ、そのモデルを徐々に抽出して、必要なサンプリング ステップがはるかに少ない拡散モデルにします。
ピクセル空間でトレーニングされた標準的な拡散モデルの場合、私たちのアプローチは、ImageNet 64×64 および CIFAR-10 でわずか 4 つのサンプリング ステップを使用して元のモデルと視覚的に同等の画像を生成し、FID/IS スコアに匹敵するスコアを達成することができます。
元のモデルよりも最大 256 倍速くサンプリングできます。
潜在空間でトレーニングされた拡散モデル (例: Stable Diffusion) の場合、私たちのアプローチは、わずか 1 ~ 4 のノイズ除去ステップを使用して忠実度の高い画像を生成することができ、ImageNet の既存の方法と比較して少なくとも 10 倍高速化されます。
256×256 および LAION データセット。
さらに、テキストガイドによる画像編集と修復に対するアプローチの有効性を実証します。この場合、抽出されたモデルは、わずか 2 ~ 4 のノイズ除去ステップを使用して高品質の結果を生成できます。

要約(オリジナル)

Classifier-free guided diffusion models have recently been shown to be highly effective at high-resolution image generation, and they have been widely used in large-scale diffusion frameworks including DALLE-2, Stable Diffusion and Imagen. However, a downside of classifier-free guided diffusion models is that they are computationally expensive at inference time since they require evaluating two diffusion models, a class-conditional model and an unconditional model, tens to hundreds of times. To deal with this limitation, we propose an approach to distilling classifier-free guided diffusion models into models that are fast to sample from: Given a pre-trained classifier-free guided model, we first learn a single model to match the output of the combined conditional and unconditional models, and then we progressively distill that model to a diffusion model that requires much fewer sampling steps. For standard diffusion models trained on the pixel-space, our approach is able to generate images visually comparable to that of the original model using as few as 4 sampling steps on ImageNet 64×64 and CIFAR-10, achieving FID/IS scores comparable to that of the original model while being up to 256 times faster to sample from. For diffusion models trained on the latent-space (e.g., Stable Diffusion), our approach is able to generate high-fidelity images using as few as 1 to 4 denoising steps, accelerating inference by at least 10-fold compared to existing methods on ImageNet 256×256 and LAION datasets. We further demonstrate the effectiveness of our approach on text-guided image editing and inpainting, where our distilled model is able to generate high-quality results using as few as 2-4 denoising steps.

arxiv情報

著者 Chenlin Meng,Robin Rombach,Ruiqi Gao,Diederik P. Kingma,Stefano Ermon,Jonathan Ho,Tim Salimans
発行日 2022-11-30 16:43:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク