要約
大規模言語モデル (LLM) の規模と複雑さが増大するにつれて、大規模言語モデル (LLM) での効率的な推論が重要な焦点になっています。
従来の自己回帰デコードは効果的ではありますが、連続したトークン生成プロセスにより計算効率が低下します。
投機的デコードでは、草案作成と検証という 2 段階のフレームワークを導入することで、このボトルネックに対処します。
より小規模で効率的なモデルによって予備ドラフトが生成され、その後、より大規模で洗練されたモデルによって改良されます。
このペーパーでは、投機的復号化手法をドラフト中心のアプローチとモデル中心のアプローチに分類して、包括的な調査を提供します。
各手法に関連する重要なアイデアについて説明し、LLM 推論をスケーリングする可能性を強調します。
この調査は、投機的デコードの最適化と現実世界の LLM アプリケーションへの統合に関する今後の研究の指針となることを目的としています。
要約(オリジナル)
Efficient inference in large language models (LLMs) has become a critical focus as their scale and complexity grow. Traditional autoregressive decoding, while effective, suffers from computational inefficiencies due to its sequential token generation process. Speculative decoding addresses this bottleneck by introducing a two-stage framework: drafting and verification. A smaller, efficient model generates a preliminary draft, which is then refined by a larger, more sophisticated model. This paper provides a comprehensive survey of speculative decoding methods, categorizing them into draft-centric and model-centric approaches. We discuss key ideas associated with each method, highlighting their potential for scaling LLM inference. This survey aims to guide future research in optimizing speculative decoding and its integration into real-world LLM applications.
arxiv情報
著者 | Hyun Ryu,Eric Kim |
発行日 | 2024-11-20 09:46:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google