What Exactly Does Guidance Do in Masked Discrete Diffusion Models

要約

分類器のないガイダンス(CFG)を使用して、マスクされた離散拡散モデルを研究します。
スコアエラーや離散化エラーがないと仮定すると、ガイド付きの逆ダイナミクスに対する明示的なソリューションを導き出し、サンプリング動作にどのように影響するかを正確に特徴付けることができます。
完全なデータ分布がクラスの混合物であり、目標が特定のクラスからサンプリングすることである場合、ガイダンスはクラス固有の領域を増幅し、他のクラスと共有された領域を抑制します。
この効果は、ガイダンス強度$ w $に依存し、サンプリングされた分布に明確な共分散構造を誘導します。
特に、$ 1 $ dと$ 2 $ dで定量的に異なる動作が観察されます。
また、大きな$ w $の場合、リバースダイナミクスに沿った総変動($ \ mathrm {tv} $)の減衰率が$ 1 $ dと$ 2 $ dの両方で$ w $で二重の表現であることを示しています。
これらの調査結果は、出力分布の形成だけでなく、サンプリング軌道のダイナミクスの制御において、ガイダンスの役割を強調しています。
私たちの理論分析は、ガイダンスの幾何学的効果と収束への影響を示す実験によってサポートされています。

要約(オリジナル)

We study masked discrete diffusion models with classifier-free guidance (CFG). Assuming no score error nor discretization error, we derive an explicit solution to the guided reverse dynamics, so that how guidance influences the sampling behavior can be precisely characterized. When the full data distribution is a mixture over classes and the goal is to sample from a specific class, guidance amplifies class-specific regions while suppresses regions shared with other classes. This effect depends on the guidance strength $w$ and induces distinct covariance structures in the sampled distribution. Notably, we observe quantitatively different behaviors in $1$D and $2$D. We also show that for large $w$, the decay rate of the total variation ($\mathrm{TV}$) along the reverse dynamics is double-exponential in $w$ for both $1$D and $2$D. These findings highlight the role of guidance, not just in shaping the output distribution, but also in controlling the dynamics of the sampling trajectory. Our theoretical analysis is supported by experiments that illustrate the geometric effects of guidance and its impact on convergence.

arxiv情報

著者 He Ye,Rojas Kevin,Tao Molei
発行日 2025-06-12 17:59:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク