要約
最新の大規模言語モデル (LLM) による推論は費用と時間がかかるため、投機的サンプリングが効果的な解決策であることが証明されています。
EAGLE などのほとんどの投機的サンプリング手法は、静的なドラフト ツリーを使用し、ドラフト トークンの受け入れ率がその位置のみに依存すると暗黙的に想定しています。
興味深いことに、ドラフト トークンの受け入れ率もコンテキストに依存することがわかりました。
この論文では、EAGLE に基づいて、コンテキストを認識した動的ドラフト ツリーの新しい技術を製図モデリングに導入する EAGLE-2 を提案します。
この改善は、EAGLE のドラフト モデルが適切に調整されているという事実を利用しています。つまり、ドラフト モデルの信頼スコアは、小さな誤差を伴うおおよその合格率です。
3 シリーズの LLM と 6 つのタスクについて広範な評価を実施し、EAGLE-2 は 3.05 倍から 4.26 倍の高速化率を達成しました。これは、EAGLE-1 よりも 20% ~ 40% 高速です。
また、EAGLE-2 は、生成されたテキストの分布が変更されないことを保証し、ロスレス アクセラレーション アルゴリズムとなります。
要約(オリジナル)
Inference with modern Large Language Models (LLMs) is expensive and time-consuming, and speculative sampling has proven to be an effective solution. Most speculative sampling methods such as EAGLE use a static draft tree, implicitly assuming that the acceptance rate of draft tokens depends only on their position. Interestingly, we found that the acceptance rate of draft tokens is also context-dependent. In this paper, building upon EAGLE, we propose EAGLE-2, which introduces a new technique of context-aware dynamic draft tree into drafting modeling. This improvement leverages the fact that the draft model of EAGLE is well-calibrated: the confidence scores from the draft model approximate acceptance rates with small errors. We conducted extensive evaluations on three series of LLMs and six tasks, with EAGLE-2 achieving speedup ratios 3.05x-4.26x, which is 20%-40% faster than EAGLE-1. EAGLE-2 also ensures that the distribution of the generated text remains unchanged, making it a lossless acceleration algorithm.
arxiv情報
著者 | Yuhui Li,Fangyun Wei,Chao Zhang,Hongyang Zhang |
発行日 | 2024-06-24 17:59:11+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google