EAGLE: Speculative Sampling Requires Rethinking Feature Uncertainty

要約

自動脱出デコードにより、大規模な言語モデル(LLMS)の推論が時間がかかります。
この論文では、投機的なサンプリングを再考し、2つの重要な観察結果を導き出します。
第一に、機能(2番目のレイヤー)レベルでの自己回復は、トークンレベルよりも簡単です。
第二に、特徴(2番目の層)レベルの自己網目上の機能に固有の不確実性がそのパフォーマンスを制約します。
これらの洞察に基づいて、シンプルでありながら効率的な投機的サンプリングフレームワークであるEagle(より大きな言語モデル効率のための外挿アルゴリズム)を紹介します。
ワンタイムステップで進行したトークンシーケンスを組み込むことにより、Eagleは不確実性を効果的に解決し、最小限のオーバーヘッドで2番目のトップレイヤー機能予測を可能にします。
VicunaおよびLlama2-Chatシリーズのすべてのモデル、MOEモデルMixtral 8x7b指示、および対話、コード生成、数学的推論、および指示におけるタスクを含む、イーグルの包括的な評価を実施しました。
Llama2-chat 70bの場合、Eagleは生成されたテキストの分布を維持しながら、2.7x-3.5xの遅延スピードアップ比を達成し、スループットを2倍にしました。

要約(オリジナル)

Autoregressive decoding makes the inference of Large Language Models (LLMs) time-consuming. In this paper, we reconsider speculative sampling and derive two key observations. Firstly, autoregression at the feature (second-to-top-layer) level is more straightforward than at the token level. Secondly, the inherent uncertainty in feature (second-to-top-layer) level autoregression constrains its performance. Based on these insights, we introduce EAGLE (Extrapolation Algorithm for Greater Language-model Efficiency), a simple yet highly efficient speculative sampling framework. By incorporating a token sequence advanced by one time step, EAGLE effectively resolves the uncertainty, enabling precise second-to-top-layer feature prediction with minimal overhead. We conducted comprehensive evaluations of EAGLE, including all models from the Vicuna and LLaMA2-Chat series, the MoE model Mixtral 8x7B Instruct, and tasks in dialogue, code generation, mathematical reasoning, and instruction following. For LLaMA2-Chat 70B, EAGLE achieved a latency speedup ratio of 2.7x-3.5x, doubled throughput, while maintaining the distribution of the generated text.

arxiv情報

著者 Yuhui Li,Fangyun Wei,Chao Zhang,Hongyang Zhang
発行日 2025-03-04 13:58:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク