要約
高画質を維持しながら、わずか 1 ~ 4 ステップで大規模な基礎画像拡散モデルを効率的にサンプリングする新しいトレーニング アプローチである Adversarial Diffusion Distillation (ADD) を紹介します。
スコア蒸留を使用して、教師信号として既製の大規模画像拡散モデルを活用し、敵対的損失と組み合わせて、1 つまたは 2 つのサンプリング ステップの低ステップ領域でも高い画像忠実度を確保します。
私たちの分析は、私たちのモデルが単一ステップで既存の数ステップ手法 (GAN、潜在整合性モデル) を明らかに上回り、わずか 4 ステップで最先端の拡散モデル (SDXL) のパフォーマンスに達することを示しています。
ADD は、基礎モデルを使用したシングルステップのリアルタイム画像合成を可能にする最初の方法です。
コードと重みは https://github.com/Stability-AI/generative-models および https://huggingface.co/stabilityai/ で入手できます。
要約(オリジナル)
We introduce Adversarial Diffusion Distillation (ADD), a novel training approach that efficiently samples large-scale foundational image diffusion models in just 1-4 steps while maintaining high image quality. We use score distillation to leverage large-scale off-the-shelf image diffusion models as a teacher signal in combination with an adversarial loss to ensure high image fidelity even in the low-step regime of one or two sampling steps. Our analyses show that our model clearly outperforms existing few-step methods (GANs, Latent Consistency Models) in a single step and reaches the performance of state-of-the-art diffusion models (SDXL) in only four steps. ADD is the first method to unlock single-step, real-time image synthesis with foundation models. Code and weights available under https://github.com/Stability-AI/generative-models and https://huggingface.co/stabilityai/ .
arxiv情報
著者 | Axel Sauer,Dominik Lorenz,Andreas Blattmann,Robin Rombach |
発行日 | 2023-11-28 18:53:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google