要約
既存の大規模な言語モデル(LLM)サービングシステムは、2つのカテゴリに分類されます。1)Prefillフェーズとデコードフェーズが同じGPUで共同配置され、統一された計算リソースとストレージを共有する統一システム、および2)2つのフェーズが異なるGPUに異議を唱える分解システム。
分解システムの設計は、統一システムのレイテンシ干渉と洗練されたスケジューリングの問題に対処しますが、1)柔軟な展開を防ぐ両方のフェーズの複製された重みにつながります。
このようなストレージの非効率性は、高いリクエストレートの下で不十分なサービスパフォーマンスを提供します。
この論文では、分解されたシステムの利点が分解された計算、つまり計算リソースを分割して2つのフェーズの非同期計算を有効にすることにあることを特定します。
したがって、分解された計算と統一されたストレージを特徴とする新しいLLMサービングシステム、SEMI-PDを提案します。
SEMI-PDでは、ストリーミングマルチプロセッサ(SM)レベルでの分解計算を実現するための計算リソースコントローラーと、両方のフェーズからの非同期メモリアクセスを管理する統一メモリマネージャーを導入します。
SEMI-PDには、2つのフェーズ間の低オーバーヘッドリソース調整メカニズムと、SLO達成を最適化するためのサービスレベルの目的(SLO)認識動的パーティションアルゴリズムがあります。
最先端のシステムと比較して、SEMI-PDは、より高い要求レートでより低いレイテンシを維持し、DeepSeekシリーズモデルで1.27-2.58Xによる平均エンドツーエンドのレイテンシを削減し、Llamaシリーズモデルのレイテンシー制約に準拠した1.55-1.72Xを提供します。
要約(オリジナル)
Existing large language model (LLM) serving systems fall into two categories: 1) a unified system where prefill phase and decode phase are co-located on the same GPU, sharing the unified computational resource and storage, and 2) a disaggregated system where the two phases are disaggregated to different GPUs. The design of the disaggregated system addresses the latency interference and sophisticated scheduling issues in the unified system but leads to storage challenges including 1) replicated weights for both phases that prevent flexible deployment, 2) KV cache transfer overhead between the two phases, 3) storage imbalance that causes substantial wasted space of the GPU capacity, and 4) suboptimal resource adjustment arising from the difficulties in migrating KV cache. Such storage inefficiency delivers poor serving performance under high request rates. In this paper, we identify that the advantage of the disaggregated system lies in the disaggregated computation, i.e., partitioning the computational resource to enable the asynchronous computation of two phases. Thus, we propose a novel LLM serving system, semi-PD, characterized by disaggregated computation and unified storage. In semi-PD, we introduce a computation resource controller to achieve disaggregated computation at the streaming multi-processor (SM) level, and a unified memory manager to manage the asynchronous memory access from both phases. semi-PD has a low-overhead resource adjustment mechanism between the two phases, and a service-level objective (SLO) aware dynamic partitioning algorithm to optimize the SLO attainment. Compared to state-of-the-art systems, semi-PD maintains lower latency at higher request rates, reducing the average end-to-end latency per request by 1.27-2.58x on DeepSeek series models, and serves 1.55-1.72x more requests adhering to latency constraints on Llama series models.
arxiv情報
著者 | Ke Hong,Lufang Chen,Zhong Wang,Xiuhong Li,Qiuli Mao,Jianping Ma,Chao Xiong,Guanyu Wu,Buhe Han,Guohao Dai,Yun Liang,Yu Wang |
発行日 | 2025-04-28 15:00:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google