Generalized Interpolating Discrete Diffusion

要約

最先端の言語モデルは次のトークン予測を通じて印象的な結果を達成しますが、すでに生成されたトークンを修正できないなど、固有の制限があります。
これにより、離散拡散などの代替アプローチの調査が促されました。
しかし、マスクされた拡散は、そのシンプルさと有効性のために人気のある選択肢として浮上しているため、この言葉を修正できないことを再導入します。
これを克服するために、マスクされた拡散を一般化し、一般的な補間別の離散拡散(GIDD)プロセスの家族の理論的バックボーンを導き出し、ノーシングプロセスの設計においてより柔軟性を提供します。
新規拡散エルボを活用して、拡散言語モデリングにおけるコンピューティングマッチの最先端のパフォーマンスを実現します。
GIDDの柔軟性を活用して、マスキングと均一なノイズを組み合わせたハイブリッドアプローチを探り、サンプルの品質を改善し、モデルが独自のミスを修正する能力を解き放ちます。
私たちのコードとモデルはオープンソースです:https://github.com/dvruette/gidd/

要約(オリジナル)

While state-of-the-art language models achieve impressive results through next-token prediction, they have inherent limitations such as the inability to revise already generated tokens. This has prompted exploration of alternative approaches such as discrete diffusion. However, masked diffusion, which has emerged as a popular choice due to its simplicity and effectiveness, reintroduces this inability to revise words. To overcome this, we generalize masked diffusion and derive the theoretical backbone of a family of general interpolating discrete diffusion (GIDD) processes offering greater flexibility in the design of the noising processes. Leveraging a novel diffusion ELBO, we achieve compute-matched state-of-the-art performance in diffusion language modeling. Exploiting GIDD’s flexibility, we explore a hybrid approach combining masking and uniform noise, leading to improved sample quality and unlocking the ability for the model to correct its own mistakes, an area where autoregressive models notoriously have struggled. Our code and models are open-source: https://github.com/dvruette/gidd/

arxiv情報

著者 Dimitri von Rütte,Janis Fluri,Yuhui Ding,Antonio Orvieto,Bernhard Schölkopf,Thomas Hofmann
発行日 2025-03-06 14:30:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク