Sequoia: Scalable, Robust, and Hardware-aware Speculative Decoding

要約

大規模言語モデル (LLM) の使用が増えるにつれて、これらのモデルを使用して効率的な推論を実行することがますます重要になります。
最近、推論を高速化するための有望な方向性として投機的デコードが浮上していますが、既存の方法では、より大きな投機バジェットに拡張したり、さまざまなハイパーパラメータやハードウェアに適応したりする能力に限界があります。
このペーパーでは、投機的デコード用のスケーラブルで堅牢なハードウェア認識アルゴリズムである Sequoia を紹介します。
より優れたスケーラビリティを実現するために、Sequoia は、推測されたトークンに最適なツリー構造を見つける動的プログラミング アルゴリズムを導入しています。
堅牢な投機的パフォーマンスを実現するために、Sequoia は、さまざまなデコード温度にわたって以前の作業よりも優れたパフォーマンスを発揮する新しいサンプリングおよび検証方法を使用します。
最後に、Sequoia は、特定のハードウェア プラットフォームのトークン ツリーのサイズと深さを自動的に選択することにより、投機パフォーマンスを最大化するハードウェア対応ツリー オプティマイザーを導入します。
評価によると、Sequoia は A100 上の Llama2-7B、Llama2-13B、および Vicuna-33B のデコード速度を最大 $4.04\times$、$3.73\times$、および $2.27\times$ 向上させました。
L40 でのオフロード設定の場合、Sequoia は正確な Llama2-70B 推論レイテンシで 0.56 秒/トークンという低さを達成します。これは、最適化されたオフロード システム (5.6 秒/トークン) では $9.96 倍、DeepSpeed-Zero の $9.7 倍です。
推論では、Huggingface Accelerate の $19.5 倍です。

要約(オリジナル)

As the usage of large language models (LLMs) grows, performing efficient inference with these models becomes increasingly important. While speculative decoding has recently emerged as a promising direction for speeding up inference, existing methods are limited in their ability to scale to larger speculation budgets, and adapt to different hyperparameters and hardware. This paper introduces Sequoia, a scalable, robust, and hardware-aware algorithm for speculative decoding. To attain better scalability, Sequoia introduces a dynamic programming algorithm to find the optimal tree structure for the speculated tokens. To achieve robust speculative performance, Sequoia uses a novel sampling and verification method that outperforms prior work across different decoding temperatures. Finally, Sequoia introduces a hardware-aware tree optimizer that maximizes speculative performance by automatically selecting the token tree size and depth for a given hardware platform. Evaluation shows that Sequoia improves the decoding speed of Llama2-7B, Llama2-13B, and Vicuna-33B on an A100 by up to $4.04\times$, $3.73\times$, and $2.27\times$. For offloading setting on L40, Sequoia achieves as low as 0.56 s/token for exact Llama2-70B inference latency, which is $9.96\times$ on our optimized offloading system (5.6 s/token), $9.7\times$ than DeepSpeed-Zero-Inference, $19.5\times$ than Huggingface Accelerate.

arxiv情報

著者 Zhuoming Chen,Avner May,Ruslan Svirschevski,Yuhsun Huang,Max Ryabinin,Zhihao Jia,Beidi Chen
発行日 2024-02-29 18:48:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク