要約
拡散モデルは高品質の画像を生成しますが、数十回の前方パスが必要です。
画質への影響を最小限に抑えながら、拡散モデルを 1 ステップの画像ジェネレーターに変換する手順である、分布マッチング蒸留 (DMD) を紹介します。
近似 KL 発散を最小限に抑え、その勾配が 2 つのスコア関数 (ターゲット分布の 1 つと合成分布のもう 1 つが生成される合成分布) の差として表現できるようにすることで、ワンステップ画像ジェネレーターを分布レベルで拡散モデルに一致させます。
私たちのワンステップジェネレーター。
スコア関数は、各分布で個別にトレーニングされた 2 つの拡散モデルとしてパラメーター化されます。
マルチステップ拡散出力の大規模構造に一致する単純な回帰損失と組み合わせると、私たちの方法は、公開されているすべての数ステップ拡散アプローチよりも優れた性能を発揮し、ImageNet 64×64 で 2.62 FID、ゼロショット COCO-30k で 11.49 FID に達します。
安定した拡散ですが、桁違いに高速です。
FP16 推論を利用することで、私たちのモデルは最新のハードウェア上で 20 FPS で画像を生成できます。
要約(オリジナル)
Diffusion models generate high-quality images but require dozens of forward passes. We introduce Distribution Matching Distillation (DMD), a procedure to transform a diffusion model into a one-step image generator with minimal impact on image quality. We enforce the one-step image generator match the diffusion model at distribution level, by minimizing an approximate KL divergence whose gradient can be expressed as the difference between 2 score functions, one of the target distribution and the other of the synthetic distribution being produced by our one-step generator. The score functions are parameterized as two diffusion models trained separately on each distribution. Combined with a simple regression loss matching the large-scale structure of the multi-step diffusion outputs, our method outperforms all published few-step diffusion approaches, reaching 2.62 FID on ImageNet 64×64 and 11.49 FID on zero-shot COCO-30k, comparable to Stable Diffusion but orders of magnitude faster. Utilizing FP16 inference, our model can generate images at 20 FPS on modern hardware.
arxiv情報
著者 | Tianwei Yin,Michaël Gharbi,Richard Zhang,Eli Shechtman,Frédo Durand,William T. Freeman,Taesung Park |
発行日 | 2023-11-30 18:59:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google