MagicDec: Breaking the Latency-Throughput Tradeoff for Long Context Generation with Speculative Decoding

要約

大規模言語モデル (LLM) は、対話型チャットボット、ドキュメント分析、エージェント ワークフローなどの長いコンテキストのアプリケーションでより普及していますが、長いコンテキストの要求を低遅延かつ高スループットで処理するのは困難です。
投機的デコード (SD) は、パフォーマンスを犠牲にすることなくレイテンシを短縮するために広く使用されている技術ですが、従来の常識では、その有効性は小さなバッチ サイズに限定されることが示唆されています。
MagicDec では、驚くべきことに SD が中程度から長いシーケンスの高スループット推論方式であっても高速化を達成できることを示します。
さらに興味深いことに、インテリジェントな製図戦略は、厳密な分析に基づいてバッチ サイズを増やすことでより高速化を達成できます。
MagicDec は、まず、バッチ サイズとシーケンスの長さの増加に伴うボトルネックの変化を特定し、これらの洞察を使用して、高スループット推論のために投機的デコーディングをより効果的に展開します。
次に、スパース KV キャッシュを備えたドラフト モデルを活用して、シーケンスの長さとバッチ サイズの両方に応じて拡大する KV ボトルネックに対処します。

要約(オリジナル)

Large Language Models (LLMs) have become more prevalent in long-context applications such as interactive chatbots, document analysis, and agent workflows, but it is challenging to serve long-context requests with low latency and high throughput. Speculative decoding (SD) is a widely used technique to reduce latency without sacrificing performance but the conventional wisdom suggests that its efficacy is limited to small batch sizes. In MagicDec, we show that surprisingly SD can achieve speedup even for a high throughput inference regime for moderate to long sequences. More interestingly, an intelligent drafting strategy can achieve better speedup with increasing batch size based on our rigorous analysis. MagicDec first identifies the bottleneck shifts with increasing batch size and sequence length, and uses these insights to deploy speculative decoding more effectively for high throughput inference. Then, it leverages draft models with sparse KV cache to address the KV bottleneck that scales with both sequence length and batch size.

arxiv情報

著者 Jian Chen,Vashisth Tiwari,Ranajoy Sadhukhan,Zhuoming Chen,Jinyuan Shi,Ian En-Hsu Yen,Beidi Chen
発行日 2024-08-20 17:57:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク