要約
分類器のないガイダンス(CFG)は、条件付きおよび無条件の予測を補間することにより、生成モデルの制御性を大幅に向上させます。
ただし、標準のCFGは、多くの場合、モデルの不確実性が動的に変化する反復生成プロセスの最適ではない静的な無条件入力を採用しています。
モデルの瞬間的な予測信頼を活用することにより、無条件の入力を調整する新しい方法である、Adaptive Classifier-Free Guidance(A-CFG)を紹介します。
反復的(マスクされた)拡散言語モデルの各ステップで、A-CFGは、モデルが低い信頼性を示す現在生成されているシーケンスのトークンを識別します。
これらのトークンは、動的でローカライズされた無条件の入力を作成するために一時的に再マスクされています。
これは、CFGの是正された影響を曖昧さの分野に正確に焦点を当て、より効果的なガイダンスにつながります。
A-CFGを最先端のマスク拡散言語モデルに統合し、その有効性を示します。
多様な言語生成ベンチマークでの実験は、A-CFGが標準のCFGよりも大幅な改善をもたらし、たとえばGPQAで3.9ポイントのゲインを達成することを示しています。
私たちの研究は、ガイダンスメカニズムを動的に適応させ、反復生成の不確実性をモデル化する利点を強調しています。
要約(オリジナル)
Classifier-Free Guidance (CFG) significantly enhances controllability in generative models by interpolating conditional and unconditional predictions. However, standard CFG often employs a static unconditional input, which can be suboptimal for iterative generation processes where model uncertainty varies dynamically. We introduce Adaptive Classifier-Free Guidance (A-CFG), a novel method that tailors the unconditional input by leveraging the model’s instantaneous predictive confidence. At each step of an iterative (masked) diffusion language model, A-CFG identifies tokens in the currently generated sequence for which the model exhibits low confidence. These tokens are temporarily re-masked to create a dynamic, localized unconditional input. This focuses CFG’s corrective influence precisely on areas of ambiguity, leading to more effective guidance. We integrate A-CFG into a state-of-the-art masked diffusion language model and demonstrate its efficacy. Experiments on diverse language generation benchmarks show that A-CFG yields substantial improvements over standard CFG, achieving, for instance, a 3.9 point gain on GPQA. Our work highlights the benefit of dynamically adapting guidance mechanisms to model uncertainty in iterative generation.
arxiv情報
著者 | Pengxiang Li,Shilin Yan,Joey Tsai,Renrui Zhang,Ruichuan An,Ziyu Guo,Xiaowei Gao |
発行日 | 2025-05-26 16:40:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google