要約
拡散ベースの大手言語モデル(拡散LLM)は、並列デコード機能を備えた非自動性テキスト生成の可能性を示しています。
ただし、キー価値(kV)キャッシュがないため、複数のトークンを同時にデコードする際の品質分解のために、オープンソースの拡散LLMの実際の推論速度は、しばしば自己回帰モデルに遅れています。
このギャップを埋めるために、双方向の拡散モデルに合わせて調整された新しいブロックごとの近似KVキャッシュメカニズムを導入し、パフォーマンスの低下でキャッシュの再利用を可能にします。
さらに、条件付き独立性の仮定に基づくトークン依存関係の破壊として、並列デコードにおける生成品質分解の根本原因を特定します。
これに対処するために、信頼性のしきい値を超えてトークンを選択的に解読し、依存関係違反を軽減し、生成品質を維持する信頼性のある並列解読戦略を提案します。
複数のLLMベンチマークにわたるLLADAおよびDREAMモデルの実験結果は、\ textBf {27.6 $ \ times $ sullput}の改善を最小限の精度損失で改善し、自己回帰モデルでパフォーマンスギャップを閉じ、拡散LLMの実用的な展開への道を開くことを示しています。
要約(オリジナル)
Diffusion-based large language models (Diffusion LLMs) have shown promise for non-autoregressive text generation with parallel decoding capabilities. However, the practical inference speed of open-sourced Diffusion LLMs often lags behind autoregressive models due to the lack of Key-Value (KV) Cache and quality degradation when decoding multiple tokens simultaneously. To bridge this gap, we introduce a novel block-wise approximate KV Cache mechanism tailored for bidirectional diffusion models, enabling cache reuse with negligible performance drop. Additionally, we identify the root cause of generation quality degradation in parallel decoding as the disruption of token dependencies under the conditional independence assumption. To address this, we propose a confidence-aware parallel decoding strategy that selectively decodes tokens exceeding a confidence threshold, mitigating dependency violations and maintaining generation quality. Experimental results on LLaDA and Dream models across multiple LLM benchmarks demonstrate up to \textbf{27.6$\times$ throughput} improvement with minimal accuracy loss, closing the performance gap with autoregressive models and paving the way for practical deployment of Diffusion LLMs.
arxiv情報
著者 | Chengyue Wu,Hao Zhang,Shuchen Xue,Zhijian Liu,Shizhe Diao,Ligeng Zhu,Ping Luo,Song Han,Enze Xie |
発行日 | 2025-05-28 17:39:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google