要約
投機的なサンプリングは、ドラフト – ヴェイロ化メカニズムを利用して前方パスごとに複数のトークンを生成することにより、大規模な言語モデル(LLM)の自動回帰生成プロセスを加速するための重要な手法として浮上しています。
最先端の投機的サンプリング方法は、印象的なレイヤー圧縮を実現するためのドラフトモデルとして単一層と言語モデリング(LM)ヘッドのみを使用しますが、Llama-などの大型語彙LLMの効率の向上は大幅に減少します。
128Kトークンの語彙を備えた3-8B。
これに対処するために、語彙空間圧縮によりドラフト候補の選択を最適化する周波数ランクの投機的なサンプリングフレームワークであるFR-Specを提示します。
検索ドラフトを周波数優先されたトークンサブセットに制約することにより、最終的な出力分布の等価性を確保しながら、LMヘッド計算オーバーヘッドを75%削減します。
複数のデータセットの実験では、最先端の投機的サンプリング方法EAGLE-2にわたって平均1.12 $ \ Times $ speedupを示しています。
要約(オリジナル)
Speculative sampling has emerged as an important technique for accelerating the auto-regressive generation process of large language models (LLMs) by utilizing a draft-then-verify mechanism to produce multiple tokens per forward pass. While state-of-the-art speculative sampling methods use only a single layer and a language modeling (LM) head as the draft model to achieve impressive layer compression, their efficiency gains are substantially reduced for large-vocabulary LLMs, such as Llama-3-8B with a vocabulary of 128k tokens. To address this, we present FR-Spec, a frequency-ranked speculative sampling framework that optimizes draft candidate selection through vocabulary space compression. By constraining the draft search to a frequency-prioritized token subset, our method reduces LM Head computation overhead by 75% while ensuring the equivalence of the final output distribution. Experiments across multiple datasets demonstrate an average of 1.12$\times$ speedup over the state-of-the-art speculative sampling method EAGLE-2.
arxiv情報
著者 | Weilin Zhao,Tengyu Pan,Xu Han,Yudi Zhang,Ao Sun,Yuxiang Huang,Kaihuo Zhang,Weilun Zhao,Yuxuan Li,Jianyong Wang,Zhiyuan Liu,Maosong Sun |
発行日 | 2025-02-20 18:58:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google