MagicDec: Breaking the Latency-Throughput Tradeoff for Long Context Generation with Speculative Decoding

要約

大規模言語モデル (LLM) は、対話型チャットボット、ドキュメント分析、エージェント ワークフローなどの長いコンテキストのアプリケーションでより普及していますが、長いコンテキストの要求を低遅延かつ高スループットで処理するのは困難です。
投機的デコード (SD) は、パフォーマンスを犠牲にすることなくレイテンシを短縮するために広く使用されている技術ですが、従来の常識では、その有効性は小さなバッチ サイズに限定されることが示唆されています。
MagicDec では、驚くべきことに SD が中程度から長いシーケンスの高スループット推論方式であっても高速化を達成できることを示します。
さらに興味深いことに、インテリジェントな製図戦略は、厳密な分析に基づいてバッチ サイズを増やすことでより高速化を達成できます。
MagicDec は、まず、バッチ サイズとシーケンスの長さの増加に伴うボトルネックの変化を特定し、これらの洞察を使用して、高スループット推論のために投機的デコーディングをより効果的に展開します。
次に、スパース KV キャッシュを備えたドラフト モデルを活用して、シーケンスの長さとバッチ サイズの両方に応じて拡大する KV ボトルネックに対処します。
この発見は、精度を損なうことなくスループットを向上させ、待ち時間を短縮できるため、ロングコンテキストのサービングにおける投機的デコードの幅広い適用可能性を強調しています。
中程度から長いシーケンスの場合、8 つの NVIDIA A100 GPU で 32 ~ 256 の範囲のバッチ サイズを処理すると、LLaMA-2-7B-32K で最大 2 倍の高速化、LLaMA-3.1-8B で 1.84 倍の高速化が実証されました。
コードは https://github.com/Infini-AI-Lab/MagicDec/ で入手できます。

要約(オリジナル)

Large Language Models (LLMs) have become more prevalent in long-context applications such as interactive chatbots, document analysis, and agent workflows, but it is challenging to serve long-context requests with low latency and high throughput. Speculative decoding (SD) is a widely used technique to reduce latency without sacrificing performance but the conventional wisdom suggests that its efficacy is limited to small batch sizes. In MagicDec, we show that surprisingly SD can achieve speedup even for a high throughput inference regime for moderate to long sequences. More interestingly, an intelligent drafting strategy can achieve better speedup with increasing batch size based on our rigorous analysis. MagicDec first identifies the bottleneck shifts with increasing batch size and sequence length, and uses these insights to deploy speculative decoding more effectively for high throughput inference. Then, it leverages draft models with sparse KV cache to address the KV bottleneck that scales with both sequence length and batch size. This finding underscores the broad applicability of speculative decoding in long-context serving, as it can enhance throughput and reduce latency without compromising accuracy. For moderate to long sequences, we demonstrate up to 2x speedup for LLaMA-2-7B-32K and 1.84x speedup for LLaMA-3.1-8B when serving batch sizes ranging from 32 to 256 on 8 NVIDIA A100 GPUs. The code is available at https://github.com/Infini-AI-Lab/MagicDec/.

arxiv情報

著者 Jian Chen,Vashisth Tiwari,Ranajoy Sadhukhan,Zhuoming Chen,Jinyuan Shi,Ian En-Hsu Yen,Beidi Chen
発行日 2024-08-21 17:55:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク