LayerKV: Optimizing Large Language Model Serving with Layer-wise KV Cache Management

要約

大規模言語モデル (LLM) のコンテキスト ウィンドウの拡張により、さまざまなアプリケーションの機能が大幅に強化されましたが、特に最初のトークンまでの時間 (TTFT) において、低遅延を維持する際に大きな課題も生じます。
このペーパーでは、コンテキストの長さが増加するにつれて TTFT が急激に上昇するのは、主にキュー遅延によって引き起こされていることがわかります。この遅延は、GPU キー/バリュー (KV) キャッシュ割り当てに対する需要の増大と、KV キャッシュ ブロックの限られた可用性との衝突によって引き起こされます。
この問題に対処するために、追加のハードウェアを必要とせず、出力パフォーマンスを犠牲にすることなく、既存の並列化戦略やスケジューリング技術とシームレスに統合しながら、TTFT を効果的に削減する、シンプルかつ効果的なプラグイン手法である LayerKV を提案します。
具体的には、LayerKV は、システム メモリをきめ細かく制御するためのレイヤーごとの KV ブロックの割り当て、管理、オフロードを導入し、SLO 対応スケジューラーと組み合わせて、全体的なサービス レベル目標 (SLO) を最適化します。
さまざまな GPU 構成にわたる 7B から 70B のパラメーターにわたる代表的なモデルの包括的な評価では、LayerKV が TTFT レイテンシーを最大 69 倍改善し、SLO 違反率を 28.7% 削減し、ユーザー エクスペリエンスを大幅に向上させることが実証されました。

要約(オリジナル)

The expanding context windows in large language models (LLMs) have greatly enhanced their capabilities in various applications, but they also introduce significant challenges in maintaining low latency, particularly in Time to First Token (TTFT). This paper identifies that the sharp rise in TTFT as context length increases is predominantly driven by queuing delays, which are caused by the growing demands for GPU Key-Value (KV) cache allocation clashing with the limited availability of KV cache blocks. To address this issue, we propose LayerKV, a simple yet effective plug-in method that effectively reduces TTFT without requiring additional hardware or compromising output performance, while seamlessly integrating with existing parallelism strategies and scheduling techniques. Specifically, LayerKV introduces layer-wise KV block allocation, management, and offloading for fine-grained control over system memory, coupled with an SLO-aware scheduler to optimize overall Service Level Objectives (SLOs). Comprehensive evaluations on representative models, ranging from 7B to 70B parameters, across various GPU configurations, demonstrate that LayerKV improves TTFT latency up to 69x and reduces SLO violation rates by 28.7%, significantly enhancing the user experience.

arxiv情報

著者 Yi Xiong,Hao Wu,Changxu Shao,Ziqing Wang,Rui Zhang,Yuhong Guo,Junping Zhao,Ke Zhang,Zhenxuan Pan
発行日 2024-10-07 15:24:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: C.4, cs.AI, cs.DC, cs.LG パーマリンク