要約
ネガティブ プロンプティング (NP) は、拡散モデル、特にテキストから画像へのアプリケーションで、望ましくない特徴の生成を防ぐために広く利用されています。
この論文では、従来の NP は一定のガイダンス スケールの仮定によって制限されており、逆プロセスの非定常性と状態依存性により、非常に次善の結果、または完全な失敗につながる可能性があることを示します。
この分析に基づいて、追加のトレーニングを必要とせずに、最適に近い時間と状態に依存したガイダンスの調整に依存する、ダイナミック ネガティブ ガイダンスと呼ばれる原則に基づいた手法を導き出します。
NP とは異なり、ネガティブ ガイダンスでは、ノイズ除去プロセス中に事後クラス確率を推定する必要があります。これは、生成プロセス中に離散マルコフ連鎖を追跡することにより、限られた追加の計算オーバーヘッドで達成されます。
MNIST および CIFAR10 での DNG クラス削除のパフォーマンスを評価し、ベースライン手法と比較して DNG がより高い安全性、クラスバランスおよび画質の維持につながることを示します。
さらに、安定拡散を備えた DNG を使用すると、NP よりも正確で低侵襲のガイダンスを得ることが可能であることを示します。
要約(オリジナル)
Negative Prompting (NP) is widely utilized in diffusion models, particularly in text-to-image applications, to prevent the generation of undesired features. In this paper, we show that conventional NP is limited by the assumption of a constant guidance scale, which may lead to highly suboptimal results, or even complete failure, due to the non-stationarity and state-dependence of the reverse process. Based on this analysis, we derive a principled technique called Dynamic Negative Guidance, which relies on a near-optimal time and state dependent modulation of the guidance without requiring additional training. Unlike NP, negative guidance requires estimating the posterior class probability during the denoising process, which is achieved with limited additional computational overhead by tracking the discrete Markov Chain during the generative process. We evaluate the performance of DNG class-removal on MNIST and CIFAR10, where we show that DNG leads to higher safety, preservation of class balance and image quality when compared with baseline methods. Furthermore, we show that it is possible to use DNG with Stable Diffusion to obtain more accurate and less invasive guidance than NP.
arxiv情報
著者 | Felix Koulischer,Johannes Deleu,Gabriel Raya,Thomas Demeester,Luca Ambrogioni |
発行日 | 2024-10-18 12:02:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google