DySpec: Faster Speculative Decoding with Dynamic Token Tree Structure

要約

投機的デコードは、大規模言語モデル (LLM) の推論を高速化するための有望な方向性として最近登場しましたが、高速化とスケーラビリティはトークン受け入れ率によって大きく制限されます。
一般的な手法は通常、予測トークンを独立したチェーンまたは固定トークン ツリーとして編成しますが、これは多様なクエリ分布に一般化できません。
この論文では、新しい動的トークン ツリー構造を備えた高速な投機的復号アルゴリズムである DySpec を提案します。
まず、直感的および経験的な手がかりからドラフト分布と合格率を橋渡しし、2 つの変数が強い相関があることを示すことに成功しました。
これに基づいて、実行時にトークン ツリーを動的に拡張する貪欲な戦略を採用します。
理論的には、私たちの方法が穏やかな仮定の下で最適な結果を達成できることを示します。
経験的には、DySpec は固定ツリーよりも高い受け入れ率と高速化をもたらします。
DySpec は、さまざまなデータ分散およびモデル サイズにわたってスループットを大幅に向上させ、トークン生成のレイテンシを短縮することができ、Specinfer や Sequoia などの強力な競合他社を大幅に上回ります。
低温設定では、DySpec は Llama2-70B でスループットを最大 9.1$\times$ 向上させ、遅延を最大 9.4$\times$ 削減できます。
高温設定では、ドラフト モデルのステップごとに複数のトークンを推測することがますます困難になっているにもかかわらず、DySpec はスループットを最大 6.21$\times$ まで向上させることもできます。

要約(オリジナル)

While speculative decoding has recently appeared as a promising direction for accelerating the inference of large language models (LLMs), the speedup and scalability are strongly bounded by the token acceptance rate. Prevalent methods usually organize predicted tokens as independent chains or fixed token trees, which fails to generalize to diverse query distributions. In this paper, we propose DySpec, a faster speculative decoding algorithm with a novel dynamic token tree structure. We begin by bridging the draft distribution and acceptance rate from intuitive and empirical clues, and successfully show that the two variables are strongly correlated. Based on this, we employ a greedy strategy to dynamically expand the token tree at run time. Theoretically, we show that our method can achieve optimal results under mild assumptions. Empirically, DySpec yields a higher acceptance rate and speedup than fixed trees. DySpec can drastically improve the throughput and reduce the latency of token generation across various data distribution and model sizes, which significantly outperforms strong competitors, including Specinfer and Sequoia. Under low temperature setting, DySpec can improve the throughput up to 9.1$\times$ and reduce the latency up to 9.4$\times$ on Llama2-70B. Under high temperature setting, DySpec can also improve the throughput up to 6.21$\times$, despite the increasing difficulty of speculating more than one token per step for draft model.

arxiv情報

著者 Yunfan Xiong,Ruoyu Zhang,Yanzeng Li,Tianhao Wu,Lei Zou
発行日 2024-10-15 16:21:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク