KunServe: Efficient Parameter-centric Memory Management for LLM Serving

要約

GPUのクラスターを使用してLLMSを提供することは最近一般的であり、サービングシステムはアプリケーションで必要な厳格なレイテンシスロを満たす必要があります。
ただし、LLMサービングのステートフルな性質には、限られたGPUメモリに巨大な状態(つまり、KVCache)を維持する必要があります。
現実世界のワークロードのスパイクでは、GPUメモリを簡単にスロットすることができ、KVCacheが回収されるのを待つことで導入されたキューイングにより、数桁高い応答レイテンシをもたらします。
以前のKVCache中心のアプローチは、KVCacheを落としたり、移行したり、交換したりすることにより、負荷のスロットリングを処理します。
これらのメソッドは、リクエストがまだキューになっているため、十分なメモリをすばやくリリースできません。
このペーパーでは、モデルパラメーターがLLMSのGPU全体で一般的に複製されるという気付かれていない観察に基づいて、リクエストに対して即座にフリーメモリを選択的にドロップすることにより、スロットを処理するための最初のパラメーター中心のアプローチを提案します。
追加のメモリを使用すると、すべてのリクエストをキューイングなしで大きなバッチで提供できます。
パラメーター中心のアプローチを正しく効率的にするために、パイプラインの並列性を使用してパラメーターの完全なコピーを使用してGPUのリクエストを協力して実行し、不必要な協力なしに適切なドロッププランを導き出します。
また、ドロップ下のリクエストの実行パターンとのパイプラインの並列性により、パフォーマンスのオーバーヘッドを最小限に抑えるための手法を設計します。
評価によると、{\ sys}は、Llumnix、VLLM、知覚容疑を含む最先端のシステムと比較して、{\ sys}がリクエストのテールTTFTを最大72.2回減少させることを示しています。

要約(オリジナル)

Serving LLMs with a cluster of GPUs is common nowadays, where the serving system must meet strict latency SLOs required by applications. However, the stateful nature of LLM serving requires maintaining huge states (i.e., KVCache) in limited GPU memory. Under spikes in real-world workloads, GPU memory can be easily throttled, leading to orders of magnitude higher response latency due to queuing introduced by waiting for KVCache to be reclaimed. Prior KVCache-centric approaches handle load throttling by dropping, migrating, or swapping KVCache. These methods fail to release sufficient memory quickly with requests still queued. This paper proposes the first parameter-centric approach to handling throttling by selectively dropping replicated parameters to instantly free memory for requests, based on an unnoticed observation that model parameters are commonly replicated across GPUs for serving LLMs. With additional memory, all requests can be served with a larger batch without queuing. To make the parameter-centric approach correct and efficient, we cooperatively execute requests on GPUs with a complete copy of parameters using pipeline parallelism, and derive an appropriate drop plan without unnecessary cooperation. We also design techniques to minimize the performance overhead due to pipeline parallelism with the execution patterns of requests under drop. Evaluations show that {\sys} reduces the tail TTFT of requests under throttling by up to 72.2 times compared to the state-of-the-art systems including Llumnix, vLLM and InferCept.

arxiv情報

著者 Rongxin Cheng,Yuxin Lai,Xingda Wei,Rong Chen,Haibo Chen
発行日 2025-05-20 16:15:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.DC パーマリンク