要約
最近のアプローチは、マルチステップのテキストから画像への拡散モデルを1ステップのものに蒸留する際に有望な結果をもたらしている。最先端の効率的な蒸留技術、すなわちSwiftBrushv2(SBv2)は、限られたリソースで教師モデルの性能を上回ることさえある。しかし、我々の研究では、VSD(Variational Score Distillation)損失内で固定されたガイダンススケールを使用するため、異なる拡散モデルのバックボーンを扱う際に不安定であることが明らかになった。既存の1ステップ拡散モデルのもう1つの弱点は、実用的な画像生成において極めて重要な負のプロンプトガイダンスのサポートが欠落していることである。本論文では、学習と推論の両方においてワンステップ拡散モデルのガイダンスを強化することで、これらの限界に対処するように設計された新しいフレームワークであるSNOOPIを提示する。まず、ランダムスケールの分類器を用いないガイダンスアプローチを採用したProper Guidance-SwiftBrush (PG-SB)により、学習の安定性を効果的に向上させる。両教師モデルのガイダンスのスケールを変化させることで、その出力分布を広げ、その結果、よりロバストなVSD損失を実現し、SBが競争力を維持しながら、多様なバックボーンで効果的に動作することを可能にする。第二に、NASA(Negative-Away Steer Attention)と呼ばれる訓練不要の手法を提案する。これは、生成画像中の望ましくない要素を抑制するために、クロスアテンションを介して、ネガティブプロンプトをワンステップ拡散モデルに統合するものである。我々の実験結果は、我々の提案手法が様々なメトリクスにおいてベースラインモデルを大幅に改善することを示している。驚くべきことに、我々はHPSv2スコア31.08を達成し、ワンステップ拡散モデルの新たな最先端ベンチマークを設定した。
要約(オリジナル)
Recent approaches have yielded promising results in distilling multi-step text-to-image diffusion models into one-step ones. The state-of-the-art efficient distillation technique, i.e., SwiftBrushv2 (SBv2), even surpasses the teacher model’s performance with limited resources. However, our study reveals its instability when handling different diffusion model backbones due to using a fixed guidance scale within the Variational Score Distillation (VSD) loss. Another weakness of the existing one-step diffusion models is the missing support for negative prompt guidance, which is crucial in practical image generation. This paper presents SNOOPI, a novel framework designed to address these limitations by enhancing the guidance in one-step diffusion models during both training and inference. First, we effectively enhance training stability through Proper Guidance-SwiftBrush (PG-SB), which employs a random-scale classifier-free guidance approach. By varying the guidance scale of both teacher models, we broaden their output distributions, resulting in a more robust VSD loss that enables SB to perform effectively across diverse backbones while maintaining competitive performance. Second, we propose a training-free method called Negative-Away Steer Attention (NASA), which integrates negative prompts into one-step diffusion models via cross-attention to suppress undesired elements in generated images. Our experimental results show that our proposed methods significantly improve baseline models across various metrics. Remarkably, we achieve an HPSv2 score of 31.08, setting a new state-of-the-art benchmark for one-step diffusion models.
arxiv情報
著者 | Viet Nguyen,Anh Nguyen,Trung Dao,Khoi Nguyen,Cuong Pham,Toan Tran,Anh Tran |
発行日 | 2024-12-04 08:01:47+00:00 |
arxivサイト | arxiv_id(pdf) |