要約
均一な状態の離散拡散モデルは、自己修正する固有の能力のために、テキスト生成の高速生成の可能性を保持します。
ただし、通常、自己回帰モデルとマスクされた拡散モデルによってアウトパフォームされています。
この作業では、重要な洞察を活用することにより、このパフォーマンスのギャップを狭めます。均一状態拡散プロセスは、基礎となるガウス拡散から自然に現れます。
私たちの方法であるDUOは、ガウスの拡散から強力な技術を転送し、トレーニングとサンプリングの両方を改善します。
まず、ガウスプロセスに導かれたカリキュラム学習戦略を紹介し、分散を減らすことでトレーニング速度を2倍にします。
カリキュラム学習で訓練されたモデルは、7つのベンチマークのうち3つでゼロショットの困惑の自己回帰モデルを上回ります。
第二に、一貫性の蒸留を連続して離散設定に適応させる離散的な一貫性の蒸留を提示します。
このアルゴリズムは、サンプリングを2桁加速することにより、拡散言語モデルの数段階の生成のロックを解除します。
プロジェクトページでコードとモデルのチェックポイントを提供します:http://s-sahoo.github.io/duo
要約(オリジナル)
Uniform-state discrete diffusion models hold the promise of fast text generation due to their inherent ability to self-correct. However, they are typically outperformed by autoregressive models and masked diffusion models. In this work, we narrow this performance gap by leveraging a key insight: Uniform-state diffusion processes naturally emerge from an underlying Gaussian diffusion. Our method, Duo, transfers powerful techniques from Gaussian diffusion to improve both training and sampling. First, we introduce a curriculum learning strategy guided by the Gaussian process, doubling training speed by reducing variance. Models trained with curriculum learning surpass autoregressive models in zero-shot perplexity on 3 of 7 benchmarks. Second, we present Discrete Consistency Distillation, which adapts consistency distillation from the continuous to the discrete setting. This algorithm unlocks few-step generation in diffusion language models by accelerating sampling by two orders of magnitude. We provide the code and model checkpoints on the project page: http://s-sahoo.github.io/duo
arxiv情報
著者 | Subham Sekhar Sahoo,Justin Deschenaux,Aaron Gokaslan,Guanghan Wang,Justin Chiu,Volodymyr Kuleshov |
発行日 | 2025-06-12 16:55:35+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google