要約
拡散言語モデルは、並列トークンの生成と固有の双方向性を提供し、自己回帰アプローチと比較して、より効率的で強力なシーケンスモデリングを約束します。
ただし、最先端の拡散モデル(例:Dream 7b、Llada 8b)は、ゆっくりとした推論に苦しんでいます。
同様のサイズの自己回帰(AR)モデルの品質(たとえば、QWEN2.5 7B、LLAMA3 8B)と一致しますが、それらの反復的な除去には複数のフルシーケンスフォワードパスが必要であり、特に長い入力プロンプトと長いコンテキストシナリオの場合、高い計算コストとレイテンシーをもたらします。
さらに、パラレルトークンの生成はトークンの一貫性の問題を導入し、現在のサンプリングヒューリスティックは、除去ステップの減少に伴う大幅な品質低下に苦しんでいます。
これらの制限は、2つのトレーニングなしのテクニックで対処します。
まず、キーバリュー(kV)近似キャッシング手法であるFreecacheを提案します。これは、除去ステップ全体で安定したKV投影を再利用し、DLM推論の計算コストを効果的に削減することを提案します。
第二に、軽量の前提条件の自己回帰モデルを使用してトークンアンマスキングを監督するトレーニングフリーの方法であるガイド付き拡散を紹介し、品質を犠牲にすることなく除去反復の総数を劇的に減らします。
オープンソースの推論ベンチマークについて広範な評価を実施しており、合わせたメソッドは、精度を損なうことなく34倍のエンドツーエンドのスピードアップを提供します。
初めて、拡散言語モデルは、広く採用されている自己回帰モデルとして、同等の、さらに速いレイテンシを実現します。
私たちの仕事は、拡散言語モデルを異なるドメインにまたがるより広いアプリケーションの範囲に拡大する方法を舗装しました。
要約(オリジナル)
Diffusion language models offer parallel token generation and inherent bidirectionality, promising more efficient and powerful sequence modeling compared to autoregressive approaches. However, state-of-the-art diffusion models (e.g., Dream 7B, LLaDA 8B) suffer from slow inference. While they match the quality of similarly sized Autoregressive (AR) Models (e.g., Qwen2.5 7B, Llama3 8B), their iterative denoising requires multiple full-sequence forward passes, resulting in high computational costs and latency, particularly for long input prompts and long-context scenarios. Furthermore, parallel token generation introduces token incoherence problems, and current sampling heuristics suffer from significant quality drops with decreasing denoising steps. We address these limitations with two training-free techniques. First, we propose FreeCache, a Key-Value (KV) approximation caching technique that reuses stable KV projections across denoising steps, effectively reducing the computational cost of DLM inference. Second, we introduce Guided Diffusion, a training-free method that uses a lightweight pretrained autoregressive model to supervise token unmasking, dramatically reducing the total number of denoising iterations without sacrificing quality. We conduct extensive evaluations on open-source reasoning benchmarks, and our combined methods deliver up to a 34x end-to-end speedup without compromising accuracy. For the first time, diffusion language models achieve a comparable and even faster latency as the widely adopted autoregressive models. Our work successfully paved the way for scaling up the diffusion language model to a broader scope of applications across different domains.
arxiv情報
著者 |
Zhanqiu Hu,Jian Meng,Yash Akhauri,Mohamed S. Abdelfattah,Jae-sun Seo,Zhiru Zhang,Udit Gupta |
発行日 |
2025-05-27 17:39:39+00:00 |
arxivサイト |
arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google