要約
信頼性の高いパフォーマンスで数万台の xPU デバイス (GPU または NPU) 上で細分化された大規模言語モデル (LLM) を提供するには、複数の課題に直面しています。
1) 多様性 (さまざまなプレフィックスと潮汐要求) を無視して、混合プール内のすべてのプロンプトを扱うのは不十分です。
シナリオごとの類似性を促進し、P/D (プリフィルとデコード) 処理の内部不一致を最小限に抑えるには、パフォーマンスを向上させるために P/D 比を動的に調整する、きめ細かい組織化が必要です。
2) ワークロード (キューのステータスまたは維持された接続) の推定が不正確なため、グローバル スケジューラはプレフィルで簡単に不必要なタイムアウトを引き起こします。
3) クラスターレベルの RDMA (リモート ダイレクト メモリ アクセス) を介したブロック固定デバイス間 (D2D) KVCache 転送では、期待どおりに必要な D2D 使用率を達成できません。
以前の問題を克服するために、この文書では、エンドツーエンド (E2E) P/D パフォーマンスをモデル化し、以下を可能にする MLOps (機械学習操作) のパラダイムに準拠したエンドツーエンド システム P/D サーブを提案します。
1) きめ細かい P/D 構成。必要に応じてサービスを RoCE (コンバージド イーサネット上の RDMA) にマッピングし、同様の処理と P/D 比の動的な調整を容易にします。
2) アイドル状態のプレフィルが拒否された場合のオンデマンド転送。定期的に不正確なレポートやローカル キューからスケジューラを切り離し、プレフィルでのタイムアウトを回避します。
3) 最適化された D2D アクセスによる効率的な KVCache 転送。
P/D-Serve は Ascend および MindSpore 上に実装されており、商用利用で 8 か月以上にわたって数万台の NPU に導入され、さらに E2E スループットと時間で 60\%、42\%、および 46\% の向上を達成しています。
-to-first-token (TTFT) SLO (サービス レベル目標) と D2D 転送時間。
最適化された E2E システムとして、P/D-Serve は集約 LLM と比較して 6.7 倍のスループット向上を達成します。
要約(オリジナル)
Serving disaggregated large language models (LLMs) over tens of thousands of xPU devices (GPUs or NPUs) with reliable performance faces multiple challenges. 1) Ignoring the diversity (various prefixes and tidal requests), treating all the prompts in a mixed pool is inadequate. To facilitate the similarity per scenario and minimize the inner mismatch on P/D (prefill and decoding) processing, fine-grained organization is required, dynamically adjusting P/D ratios for better performance. 2) Due to inaccurate estimation on workload (queue status or maintained connections), the global scheduler easily incurs unnecessary timeouts in prefill. 3) Block-fixed device-to-device (D2D) KVCache transfer over cluster-level RDMA (remote direct memory access) fails to achieve desired D2D utilization as expected. To overcome previous problems, this paper proposes an end-to-end system P/D-Serve, complying with the paradigm of MLOps (machine learning operations), which models end-to-end (E2E) P/D performance and enables: 1) fine-grained P/D organization, mapping the service with RoCE (RDMA over converged ethernet) as needed, to facilitate similar processing and dynamic adjustments on P/D ratios; 2) on-demand forwarding upon rejections for idle prefill, decoupling the scheduler from regular inaccurate reports and local queues, to avoid timeouts in prefill; and 3) efficient KVCache transfer via optimized D2D access. P/D-Serve is implemented upon Ascend and MindSpore, has been deployed over tens of thousands of NPUs for more than eight months in commercial use, and further achieves 60\%, 42\% and 46\% improvements on E2E throughput, time-to-first-token (TTFT) SLO (service level objective) and D2D transfer time. As the E2E system with optimizations, P/D-Serve achieves 6.7x increase on throughput, compared with aggregated LLMs.
arxiv情報
著者 | Yibo Jin,Tao Wang,Huimin Lin,Mingyang Song,Peiyang Li,Yipeng Ma,Yicheng Shan,Zhengfan Yuan,Cailong Li,Yajing Sun,Tiandeng Wu,Xing Chu,Ruizhi Huan,Li Ma,Xiao You,Wenting Zhou,Yunpeng Ye,Wen Liu,Xiangkun Xu,Yongsheng Zhang,Tiantian Dong,Jiawei Zhu,Zhe Wang,Xijian Ju,Jianxun Song,Haoliang Cheng,Xiaojing Li,Jiandong Ding,Hefei Guo,Zhengyong Zhang |
発行日 | 2024-08-15 13:32:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google