Accelerating LLM Inference with Staged Speculative Decoding

要約

大規模言語モデル (LLM) の最近の進歩は、その多様な機能を示しています。
小規模バッチのオンデバイス シナリオで LLM 推論を高速化する、新しいアルゴリズムである段階的投機的デコードを提案します。
私たちは、投機的デコードにおける以前の研究を改善することで、小バッチ推論の低い算術強度に対処します。
まず、投機的なバッチをツリーとして再構築します。これにより、生成コストが削減され、バッチごとに期待されるトークンが増加します。
次に、投機的デコードの第 2 段階を追加します。
総合すると、出力品質を完全に維持しながら、762M パラメーターの GPT-2-L モデルを使用すると、単一バッチのデコード遅延が 3.16 倍に削減されます。

要約(オリジナル)

Recent advances with large language models (LLM) illustrate their diverse capabilities. We propose a novel algorithm, staged speculative decoding, to accelerate LLM inference in small-batch, on-device scenarios. We address the low arithmetic intensity of small-batch inference by improving upon previous work in speculative decoding. First, we restructure the speculative batch as a tree, which reduces generation costs and increases the expected tokens per batch. Second, we add a second stage of speculative decoding. Taken together, we reduce single-batch decoding latency by 3.16x with a 762M parameter GPT-2-L model while perfectly preserving output quality.

arxiv情報

著者 Benjamin Spector,Chris Re
発行日 2023-08-08 23:29:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク