SPEED: Speculative Pipelined Execution for Efficient Decoding

要約

Transformerアーキテクチャに基づく生成ラージ言語モデル(LLM)は、近年、幅広い自然言語処理タスクの主要な基礎モデルとして台頭してきた。それにもかかわらず、これらのモデルに関連する重大な推論待ち時間のために、リアルタイムシナリオでの適用は非常に制限されている。これは特に、トークンが逐次的に生成される生成的LLM推論の自己回帰的性質のために顕著である。そのため、トークンレベルの並列性を実現することは困難であり、推論が非常にメモリに縛られる。本研究では、初期層の隠れ状態に基づく予測値を用いて、現在のトークンと並行して複数の未来のトークンを投機的に実行することで、推論効率を向上させるSPEEDを提案する。パラメータ共有を用いるTransformerデコーダの場合、並列に実行されるトークンのメモリ操作を償却することができ、これにより生成的LLM推論を高速化することができる。我々は、モデルの精度に対する待ち時間の削減という観点から、本手法の効率性を実証し、投機により、最小限の実行時間オーバーヘッドで、パラメータ共有により、より深いデコーダの学習が可能であることを示す。

要約(オリジナル)

Generative Large Language Models (LLMs) based on the Transformer architecture have recently emerged as a dominant foundation model for a wide range of Natural Language Processing tasks. Nevertheless, their application in real-time scenarios has been highly restricted due to the significant inference latency associated with these models. This is particularly pronounced due to the autoregressive nature of generative LLM inference, where tokens are generated sequentially since each token depends on all previous output tokens. It is therefore challenging to achieve any token-level parallelism, making inference extremely memory-bound. In this work, we propose SPEED, which improves inference efficiency by speculatively executing multiple future tokens in parallel with the current token using predicted values based on early-layer hidden states. For Transformer decoders that employ parameter sharing, the memory operations for the tokens executing in parallel can be amortized, which allows us to accelerate generative LLM inference. We demonstrate the efficiency of our method in terms of latency reduction relative to model accuracy and demonstrate how speculation allows for training deeper decoders with parameter sharing with minimal runtime overhead.

arxiv情報

著者 Coleman Hooper,Sehoon Kim,Hiva Mohammadzadeh,Hasan Genc,Kurt Keutzer,Amir Gholami,Sophia Shao
発行日 2024-01-03 00:32:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク