Beyond the Speculative Game: A Survey of Speculative Execution in Large Language Models

要約

(因果的) 大規模言語モデル (LLM) のスケールがますます巨大になるにつれ、推論効率がパフォーマンスの向上に伴う主要な懸念事項の 1 つとして浮上しています。
メモリ使用量とは対照的に、LLM (GPT-4 など) へのリクエストは 1 日に何十億件も発生する可能性があるため、レイテンシのボトルネックがより重要であると思われます。
ボトルネックは主に、LLM の自己回帰の本質によるもので、トークンはデコード中に連続的にしか生成できません。
ボトルネックを軽減するために、コンピューター アーキテクチャの分野に由来する投機的実行のアイデアが、\textit{draft-then-verify} スタイルの LLM デコーディングに導入されています。
この体制では、いくつかのヒューリスティックを利用して一連のトークンが高速で作成され、LLM によってトークンが並行して検証されます。
コストのかかる逐次推論が並列化されるため、LLM デコード速度が大幅に向上します。
ここ数年の LLM の成功により、この方向の文献が増えてきました。
しかし、現在の景観を要約し、この有望な地域の将来の開発に向けたロードマップを描くための位置調査が不足しています。
この要求に応えるために、我々は、LLM における投機的実行に関する文献 (ブロック単位の並列デコード、投機的デコードなど) を包括的なフレームワークと体系的な分類法でレビューし、統合する最初の調査論文を発表します。
分類学に基づいて、現在の芸術の批判的レビューと比較分析を示します。
最後に、この地域をさらに発展させるためのさまざまな重要な課題と将来の方向性を強調します。

要約(オリジナル)

With the increasingly giant scales of (causal) large language models (LLMs), the inference efficiency comes as one of the core concerns along the improved performance. In contrast to the memory footprint, the latency bottleneck seems to be of greater importance as there can be billions of requests to a LLM (e.g., GPT-4) per day. The bottleneck is mainly due to the autoregressive innateness of LLMs, where tokens can only be generated sequentially during decoding. To alleviate the bottleneck, the idea of speculative execution, which originates from the field of computer architecture, is introduced to LLM decoding in a \textit{draft-then-verify} style. Under this regime, a sequence of tokens will be drafted in a fast pace by utilizing some heuristics, and then the tokens shall be verified in parallel by the LLM. As the costly sequential inference is parallelized, LLM decoding speed can be significantly boosted. Driven by the success of LLMs in recent couple of years, a growing literature in this direction has emerged. Yet, there lacks a position survey to summarize the current landscape and draw a roadmap for future development of this promising area. To meet this demand, we present the very first survey paper that reviews and unifies literature of speculative execution in LLMs (e.g., blockwise parallel decoding, speculative decoding, etc.) in a comprehensive framework and a systematic taxonomy. Based on the taxonomy, we present a critical review and comparative analysis of the current arts. Finally we highlight various key challenges and future directions to further develop the area.

arxiv情報

著者 Chen Zhang,Zhuorui Liu,Dawei Song
発行日 2024-04-23 10:25:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク