Feedback Guidance of Diffusion Models

要約

分類器のないガイダンス(CFG)は、条件付き拡散モデルのサンプルの忠実度を改善するための標準となっていますが、特定のサンプルが修正を必要とするかどうかに関係なく、一定のガイダンスを適用することにより、多様性を害し、記憶を引き起こす可能性があります。
状態依存係数を使用して、ニーズに基づいてガイダンス額を自己調整するフィードバックガイダンス(FBG)を提案します。
私たちのアプローチは、学習した条件分布が無条件分布によって直線的に破損すると仮定することにより、第一原理から導き出され、CFGの暗黙的な乗算仮定とは対照的です。
私たちのスキームは、推論中にガイダンスを動的に適応させるための条件付き信号情報性に関する独自の予測のフィードバックに依存しており、固定ハイパーパラメーターとしてのガイダンスの見解に挑戦しています。
このアプローチはImagENET512x512にベンチマークされており、分類器のないガイダンスを大幅に上回り、強力な数学的枠組みの恩恵を受けながら限られたインターバルガイダンス(LIG)に競争します。
テキストからイメージの生成では、予想されるように、私たちのアプローチは、より単純なプロンプトよりも複雑なプロンプトに高いガイダンススケールを自動的に適用し、CFGやLIGなどの既存のガイダンススキームと簡単に組み合わせることができることを実証します。

要約(オリジナル)

While Classifier-Free Guidance (CFG) has become standard for improving sample fidelity in conditional diffusion models, it can harm diversity and induce memorization by applying constant guidance regardless of whether a particular sample needs correction. We propose FeedBack Guidance (FBG), which uses a state-dependent coefficient to self-regulate guidance amounts based on need. Our approach is derived from first principles by assuming the learned conditional distribution is linearly corrupted by the unconditional distribution, contrasting with CFG’s implicit multiplicative assumption. Our scheme relies on feedback of its own predictions about the conditional signal informativeness to adapt guidance dynamically during inference, challenging the view of guidance as a fixed hyperparameter. The approach is benchmarked on ImageNet512x512, where it significantly outperforms Classifier-Free Guidance and is competitive to Limited Interval Guidance (LIG) while benefitting from a strong mathematical framework. On Text-To-Image generation, we demonstrate that, as anticipated, our approach automatically applies higher guidance scales for complex prompts than for simpler ones and that it can be easily combined with existing guidance schemes such as CFG or LIG.

arxiv情報

著者 Koulischer Felix,Handke Florian,Deleu Johannes,Demeester Thomas,Ambrogioni Luca
発行日 2025-06-06 13:46:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク