Unlocking Efficiency in Large Language Model Inference: A Comprehensive Survey of Speculative Decoding

要約

大規模言語モデル (LLM) での自己回帰デコードに起因する高い推論レイテンシを軽減するために、LLM 推論の新しいデコード パラダイムとして投機的デコードが登場しました。
この方法では、各デコード手順で、まず将来のいくつかのトークンを効率的にドラフトし、次にそれらを並行して検証します。
自己回帰デコードとは異なり、投機的デコードではステップごとに複数のトークンを同時にデコードできるため、推論が高速化されます。
この論文では、この有望な復号化パラダイムの包括的な概要と分析を示します。
まず、投機的デコーディングの正式な定義と定式化を提供します。
次に、起草者の選定や検証戦略など、その主要な側面について徹底的な議論を組織します。
さらに、サードパーティのテスト環境における主要な手法の比較分析を示します。
私たちは、この研究が投機的復号化に関するさらなる研究の触媒として機能し、最終的にはより効率的な LLM 推論に貢献することを目指しています。

要約(オリジナル)

To mitigate the high inference latency stemming from autoregressive decoding in Large Language Models (LLMs), Speculative Decoding has emerged as a novel decoding paradigm for LLM inference. In each decoding step, this method first drafts several future tokens efficiently and then verifies them in parallel. Unlike autoregressive decoding, Speculative Decoding facilitates the simultaneous decoding of multiple tokens per step, thereby accelerating inference. This paper presents a comprehensive overview and analysis of this promising decoding paradigm. We begin by providing a formal definition and formulation of Speculative Decoding. Then, we organize in-depth discussions on its key facets, such as drafter selection and verification strategies. Furthermore, we present a comparative analysis of leading methods under third-party testing environments. We aim for this work to serve as a catalyst for further research on Speculative Decoding, ultimately contributing to more efficient LLM inference.

arxiv情報

著者 Heming Xia,Zhe Yang,Qingxiu Dong,Peiyi Wang,Yongqi Li,Tao Ge,Tianyu Liu,Wenjie Li,Zhifang Sui
発行日 2024-06-04 17:08:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク