Block Diffusion: Interpolating Between Autoregressive and Diffusion Language Models

要約

拡散言語モデルは、並列化された生成と制御性の可能性により、自己回帰モデルよりも独自の利点を提供しますが、尤度モデリングに遅れをとっており、固定長の生成に限定されています。
この作業では、離散除去拡散モデルと自己回帰モデルの間を補間するブロック拡散言語モデルのクラスを導入します。
ブロック拡散は、柔軟な長さの生成をサポートし、KVキャッシングと並列トークンサンプリングで推論効率を改善することにより、両方のアプローチの重要な制限を克服します。
効率的なトレーニングアルゴリズム、勾配分散の推定器、および分散を最小限に抑えるデータ駆動型ノイズスケジュールを含む効果的なブロック拡散モデルを構築するためのレシピを提案します。
ブロック拡散は、言語モデリングベンチマークの拡散モデル間で新しい最先端のパフォーマンスを設定し、任意の長さのシーケンスを生成できるようにします。
プロジェクトページのモデルの重みとブログ投稿とともに、コードを提供します:https://m-arriola.com/bd3lms/

要約(オリジナル)

Diffusion language models offer unique benefits over autoregressive models due to their potential for parallelized generation and controllability, yet they lag in likelihood modeling and are limited to fixed-length generation. In this work, we introduce a class of block diffusion language models that interpolate between discrete denoising diffusion and autoregressive models. Block diffusion overcomes key limitations of both approaches by supporting flexible-length generation and improving inference efficiency with KV caching and parallel token sampling. We propose a recipe for building effective block diffusion models that includes an efficient training algorithm, estimators of gradient variance, and data-driven noise schedules to minimize the variance. Block diffusion sets a new state-of-the-art performance among diffusion models on language modeling benchmarks and enables generation of arbitrary-length sequences. We provide the code, along with the model weights and blog post on the project page: https://m-arriola.com/bd3lms/

arxiv情報

著者 Marianne Arriola,Aaron Gokaslan,Justin T Chiu,Zhihan Yang,Zhixuan Qi,Jiaqi Han,Subham Sekhar Sahoo,Volodymyr Kuleshov
発行日 2025-03-18 15:58:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク