要約
拡散モデルは画像生成において多大な成果を示しています。
ただし、拡散プロセスの反復的な性質と分類器を使用しないガイダンスへの依存により、推論時間は遅くなります。
この論文では、元のテキストから画像へのモデルをフリーズしたまま外部の軽量ガイド モデルをトレーニングする、ガイド付き拡散モデルの新しい蒸留アプローチを提案します。
私たちの方法は、分類器なしの誘導型潜在空間拡散モデルの推論計算をほぼ半分に削減し、ベース モデルのトレーニング可能なパラメーターが 1\% のみ必要であることを示します。
さらに、一度トレーニングしたガイド モデルは、追加のトレーニングを必要とせずに、ベース拡散モデルのさまざまな微調整されたドメイン固有のバージョンに適用できます。この「プラグ アンド プレイ」機能により、ビジュアルを維持しながら推論計算が大幅に向上します。
生成された画像の忠実度。
経験的に、私たちのアプローチは視覚的に魅力的な結果を生み出し、わずか 8 ~ 16 ステップで教師と同等の FID スコアを達成できることを示しています。
要約(オリジナル)
Diffusion models have shown tremendous results in image generation. However, due to the iterative nature of the diffusion process and its reliance on classifier-free guidance, inference times are slow. In this paper, we propose a new distillation approach for guided diffusion models in which an external lightweight guide model is trained while the original text-to-image model remains frozen. We show that our method reduces the inference computation of classifier-free guided latent-space diffusion models by almost half, and only requires 1\% trainable parameters of the base model. Furthermore, once trained, our guide model can be applied to various fine-tuned, domain-specific versions of the base diffusion model without the need for additional training: this ‘plug-and-play’ functionality drastically improves inference computation while maintaining the visual fidelity of generated images. Empirically, we show that our approach is able to produce visually appealing results and achieve a comparable FID score to the teacher with as few as 8 to 16 steps.
arxiv情報
著者 | Yi-Ting Hsiao,Siavash Khodadadeh,Kevin Duarte,Wei-An Lin,Hui Qu,Mingi Kwon,Ratheesh Kalarot |
発行日 | 2024-06-14 15:53:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google