Noise-Free Score Distillation


スコア蒸留サンプリング (SDS) は、非画像ドメインでテキストからコンテンツを生成するための事実上のアプローチとして浮上しました。
このホワイトペーパーでは、SDS プロセスを再検討し、不要なノイズ項の抽出に根ざした大規模な分類子なしガイダンス (CFG) スケールの必要性をわかりやすく説明する単純な解釈を紹介します。
私たちの解釈に基づいて、元の SDS フレームワークへの変更を最小限に抑える新しいノイズフリー スコア蒸留 (NFSD) プロセスを提案します。
この合理化された設計により、公称 CFG スケールを使用しながら、事前トレーニングされたテキストから画像への拡散モデルのより効果的な蒸留を実現します。
NFSD の有効性を実証するために、NFSD と SDS、および他のいくつかの方法を比較する定性的な例を提供します。


Score Distillation Sampling (SDS) has emerged as the de facto approach for text-to-content generation in non-image domains. In this paper, we reexamine the SDS process and introduce a straightforward interpretation that demystifies the necessity for large Classifier-Free Guidance (CFG) scales, rooted in the distillation of an undesired noise term. Building upon our interpretation, we propose a novel Noise-Free Score Distillation (NFSD) process, which requires minimal modifications to the original SDS framework. Through this streamlined design, we achieve more effective distillation of pre-trained text-to-image diffusion models while using a nominal CFG scale. This strategic choice allows us to prevent the over-smoothing of results, ensuring that the generated data is both realistic and complies with the desired prompt. To demonstrate the efficacy of NFSD, we provide qualitative examples that compare NFSD and SDS, as well as several other methods.


著者 Oren Katzir,Or Patashnik,Daniel Cohen-Or,Dani Lischinski
発行日 2023-10-26 17:12:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CV パーマリンク