Classifier-Free Guidance is a Predictor-Corrector

要約

私たちは、分類子なしガイダンス (CFG) の理論的基礎を調査します。
CFG は、テキストから画像への拡散モデルの条件付きサンプリングの主要な方法ですが、拡散の他の側面とは異なり、依然として不安定な理論的基盤にあります。
この論文では、CFG が DDPM (Ho et al., 2020) および DDIM (Song et al., 2021) と異なる相互作用を示し、CFG を使用したどちらのサンプラーもガンマ乗分布 $p(
x|c)^\gamma p(x)^{1-\gamma}$。
次に、CFG がノイズ除去とシャープ化を交互に行う一種の予測子補正法 (Song et al., 2020) であることを示すことで、CFG の動作を明らかにします。これを予測子補正ガイダンス (PCG) と呼びます。
SDE の制限において、CFG は実際には、条件付き分布の DDIM 予測器と、ガンマ乗分布 (慎重に選択されたガンマ) のランジュバン力学補正器を組み合わせるのと同等であることを証明します。
したがって、私たちの研究は、原則に基づいたサンプリング手法のより広範な設計空間に CFG を組み込むことで、CFG を理論的に理解するためのレンズを提供します。

要約(オリジナル)

We investigate the theoretical foundations of classifier-free guidance (CFG). CFG is the dominant method of conditional sampling for text-to-image diffusion models, yet unlike other aspects of diffusion, it remains on shaky theoretical footing. In this paper, we disprove common misconceptions, by showing that CFG interacts differently with DDPM (Ho et al., 2020) and DDIM (Song et al., 2021), and neither sampler with CFG generates the gamma-powered distribution $p(x|c)^\gamma p(x)^{1-\gamma}$. Then, we clarify the behavior of CFG by showing that it is a kind of predictor-corrector method (Song et al., 2020) that alternates between denoising and sharpening, which we call predictor-corrector guidance (PCG). We prove that in the SDE limit, CFG is actually equivalent to combining a DDIM predictor for the conditional distribution together with a Langevin dynamics corrector for a gamma-powered distribution (with a carefully chosen gamma). Our work thus provides a lens to theoretically understand CFG by embedding it in a broader design space of principled sampling methods.

arxiv情報

著者 Arwen Bradley,Preetum Nakkiran
発行日 2024-08-23 17:21:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク