EAGLE: Speculative Sampling Requires Rethinking Feature Uncertainty

要約

自動回帰デコードにより、大規模言語モデル (LLM) の推論に時間がかかります。
ロスレス高速化のためのシンプルなフレームワークEAGLE (Extrapolation Algorithm for Greater Language-model Efficiency)を提案します。
従来の投機的サンプリング手法とは異なり、EAGLE は、より規則的な (最上層から 2 番目の) フィーチャ レベルでドラフト プロセスを自動回帰的に実行し、1 タイム ステップ先のトークンを統合することで、次のフィーチャ予測問題におけるサンプリングの不確実性の問題に対処します。
EAGLE によって提供されるアクセラレーションはロスレスです。ターゲット LLM の微調整は必要なく、生成されたテキストはバニラの自己回帰デコードと同じ分布を維持します。
このペーパーの提出時点では、EAGLE は投機的サンプリング ファミリ内で最も高速な既知のフレームワークです。
MT ベンチでは、EAGLE はバニラ デコードより 3 倍、Lookahead より 2 倍、Medusa より 1.6 倍高速です。
gpt-fast を使用することで、EAGLE は、Huggingface の実装の 24 トークン/秒と比較して、単一の RTX 3090 GPU 上の LLaMA2-Chat 13B で平均 160 トークン/秒を達成します。

要約(オリジナル)

Auto-regressive decoding makes the inference of Large Language Models (LLMs) time-consuming. We propose a simple framework, EAGLE (Extrapolation Algorithm for Greater Language-model Efficiency), for lossless acceleration. Unlike traditional speculative sampling methods, EAGLE operates the drafting process auto-regressively at the more regular (second-top-layer) feature level and addresses the sampling uncertainty issues in the next-feature prediction problems by integrating tokens from one time step ahead. The acceleration provided by EAGLE is lossless: it involves no fine-tuning of the target LLM, and the generated text maintains the same distribution as that of vanilla auto-regressive decoding. As of the submission of this paper, EAGLE is the fastest known framework within the speculative sampling family. On MT-bench, EAGLE is 3x faster than vanilla decoding, 2x faster than Lookahead, and 1.6x faster than Medusa. Using gpt-fast, EAGLE attains on average 160 tokens/s with LLaMA2-Chat 13B on a single RTX 3090 GPU, compared to 24 tokens/s of Huggingface’s implementations.

arxiv情報

著者 Yuhui Li,Fangyun Wei,Chao Zhang,Hongyang Zhang
発行日 2024-01-26 18:59:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク