Distilling Diffusion Models into Conditional GANs

要約

私たちは、複雑なマルチステップ拡散モデルを単一ステップの条件付き GAN スチューデント モデルに抽出し、画質を維持しながら推論を劇的に高速化する方法を提案します。
私たちのアプローチでは、拡散モデルの ODE 軌跡のノイズと画像のペアを使用して、拡散蒸留をペアの画像から画像への変換タスクとして解釈します。
効率的な回帰損失計算のために、拡張のアンサンブルを利用して、拡散モデルの潜在空間で直接動作する知覚損失である E-LatentLPIPS を提案します。
さらに、拡散モデルを適応させてテキスト配置損失を伴うマルチスケール識別器を構築し、効果的な条件付き GAN ベースの定式化を構築します。
E-LatentLPIPS は、データセット構築コストを考慮しても、多くの既存の蒸留方法よりも効率的に収束します。
当社のワンステップジェネレーターは、ゼロショット COCO ベンチマークにおいて、最先端のワンステップ拡散蒸留モデル (DMD、SDXL-Turbo、および SDXL-Lightning) を上回るパフォーマンスを示します。

要約(オリジナル)

We propose a method to distill a complex multistep diffusion model into a single-step conditional GAN student model, dramatically accelerating inference, while preserving image quality. Our approach interprets diffusion distillation as a paired image-to-image translation task, using noise-to-image pairs of the diffusion model’s ODE trajectory. For efficient regression loss computation, we propose E-LatentLPIPS, a perceptual loss operating directly in diffusion model’s latent space, utilizing an ensemble of augmentations. Furthermore, we adapt a diffusion model to construct a multi-scale discriminator with a text alignment loss to build an effective conditional GAN-based formulation. E-LatentLPIPS converges more efficiently than many existing distillation methods, even accounting for dataset construction costs. We demonstrate that our one-step generator outperforms cutting-edge one-step diffusion distillation models – DMD, SDXL-Turbo, and SDXL-Lightning – on the zero-shot COCO benchmark.

arxiv情報

著者 Minguk Kang,Richard Zhang,Connelly Barnes,Sylvain Paris,Suha Kwak,Jaesik Park,Eli Shechtman,Jun-Yan Zhu,Taesung Park
発行日 2024-05-09 17:59:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR, cs.LG パーマリンク