要約
SDXLに基づく1ステップ/数ステップの1024pxテキスト画像生成において、新たな最先端を達成する拡散蒸留法を提案する。本手法は漸進的蒸留と敵対的蒸留を組み合わせ、品質とモードカバレッジのバランスを達成する。本論文では、理論解析、識別器の設計、モデルの定式化、および学習技術について述べる。SDXL-Lightningの蒸留モデルをLoRAと完全なUNetの重みとしてオープンソース化する。
要約(オリジナル)
We propose a diffusion distillation method that achieves new state-of-the-art in one-step/few-step 1024px text-to-image generation based on SDXL. Our method combines progressive and adversarial distillation to achieve a balance between quality and mode coverage. In this paper, we discuss the theoretical analysis, discriminator design, model formulation, and training techniques. We open-source our distilled SDXL-Lightning models both as LoRA and full UNet weights.
arxiv情報
著者 | Shanchuan Lin,Anran Wang,Xiao Yang |
発行日 | 2024-03-02 09:09:32+00:00 |
arxivサイト | arxiv_id(pdf) |