Draft Model Knows When to Stop: A Self-Verification Length Policy for Speculative Decoding

要約

投機的デコーディング (SD) は、大規模な言語モデルの推論速度を高速化する上で重要な技術となっています。
従来の SD メソッドでは固定のドラフト長が採用されており、タスク全体にわたるトークン生成の難しさは無視されています。
したがって、このホワイトペーパーでは、このような問題に対処し、投機的復号化システムのための困難を認識した動的ドラフト長ポリシーである SVIP を導入します。
ドラフト トークン受け入れ率の理論的な下限とその推論時間の近似に基づいて、SVIP は各ドラフト トークン分布のエントロピーに基づいてドラフト シーケンスの長さを適応的に決定します。
主流の SD ベンチマークとフレームワークでの実験結果では、SVIP の優れたパフォーマンスが実証されており、ベースライン SD メソッドと比較して SpecBench では最大 20% のウォールタイム高速化が達成され、最大 8K トークンの長い形式の生成では MT-Bench で 60% の高速化が達成されています。
さらに、SVIP はトレーニングがまったく不要で、ドラフト トークンを自己回帰的に生成する既存の SD メソッドと互換性があります。
実験結果では、SVIP が GliDe および CaPE および EAGLE-2 に比べて一貫した稼働時間の改善をもたらすことも示しています。

要約(オリジナル)

Speculative Decoding (SD) has become an important technique in accelerating the inference speed of large language models. Conventional SD methods employ a fixed draft length, which ignores the token generation difficulty across tasks. Consequently, in this paper, we address such an issue and introduce SVIP – a difficulty-aware dynamic draft length policy for speculative decoding systems. Based on a theoretical lower bound of draft token acceptance rate and its inference-time approximation, SVIP adaptively determines the lengths of draft sequences based on the entropy of each draft token distribution. Experimental results on mainstream SD benchmarks and frameworks demonstrate the superior performance of SVIP, achieving up to 20\% walltime speedup on SpecBench over baseline SD methods and 60\% speedup on MT-Bench for long-form generation of up to 8K tokens. Moreover, SVIP is totally training-free and compatible with any existing SD methods that generate draft tokens autoregressively. Experimental results also show that SVIP yields consistent walltime improvement on top of GliDe & CaPE and EAGLE-2.

arxiv情報

著者 Ziyin Zhang,Jiahao Xu,Tian Liang,Xingyu Chen,Zhiwei He,Rui Wang,Zhaopeng Tu
発行日 2024-11-27 15:53:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク