SpotServe: Serving Generative Large Language Models on Preemptible Instances

要約

生成大規模言語モデル (LLM) には高い計算量とメモリ要件があるため、安価に提供することが困難です。
このペーパーは、最新のクラウド上のプリエンプティブル GPU インスタンスを活用することで、LLM を提供するための金銭的コストを削減することを目的としています。プリエンプティブル GPU インスタンスは、通常のインスタンスよりもはるかに安い価格で予備の GPU へのアクセスを提供しますが、いつでもクラウドによってプリエンプトされる可能性があります。
プリエンプティブル インスタンスで LLM を提供するには、頻繁なインスタンスのプリエンプションによって引き起こされる課題と、これらのプリエンプションを処理するためにインスタンスを移行する必要性に対処する必要があります。
このペーパーでは、プリエンプティブル インスタンス上の初の分散 LLM サービス システムである SpotServe について説明します。
SpotServe のいくつかの主要な技術により、安価なプリエンプティブル インスタンス上での生成 LLM の高速かつ信頼性の高いサービス提供が実現されます。
まず、SpotServe は、全体のスループット、推論レイテンシー、および金銭的コストの間のトレードオフのバランスをとりながら、動的なインスタンスの可用性と変動するワークロードに合わせて LLM 並列化構成を動的に適応させます。
次に、動的再並列化のためのインスタンスの移行コストを最小限に抑えるために、インスタンスの移行タスクは、Kuhn-Munkres アルゴリズムを使用して通信を最小限に抑える最適な移行計画を特定する 2 部グラフ マッチング問題として定式化されます。
最後に、最新のクラウドによって提供される猶予期間を利用するために、ステートフル推論リカバリを導入します。これは、はるかに細かい粒度で推論の進行をコミットし、SpotServe がプリエンプション時に推論を安価に再開できるようにする新しい推論メカニズムです。
実際のスポット インスタンスのプリエンプション トレースとさまざまな一般的な LLM を評価し、SpotServe が既存の最良の LLM サービング システムと比較して P99 テール レイテンシを 2.4 ~ 9.1 倍削減できることを示しました。
また、SpotServe はプリエンプティブ インスタンスの価格上の利点を活用し、オンデマンド インスタンスのみを使用する場合と比較して金銭的コストを 54% 節約できることも示します。

要約(オリジナル)

The high computational and memory requirements of generative large language models (LLMs) make it challenging to serve them cheaply. This paper aims to reduce the monetary cost for serving LLMs by leveraging preemptible GPU instances on modern clouds, which offer accesses to spare GPUs at a much cheaper price than regular instances but may be preempted by the cloud at any time. Serving LLMs on preemptible instances requires addressing challenges induced by frequent instance preemptions and the necessity of migrating instances to handle these preemptions. This paper presents SpotServe, the first distributed LLM serving system on preemptible instances. Several key techniques in SpotServe realize fast and reliable serving of generative LLMs on cheap preemptible instances. First, SpotServe dynamically adapts the LLM parallelization configuration for dynamic instance availability and fluctuating workload, while balancing the trade-off among the overall throughput, inference latency and monetary costs. Second, to minimize the cost of migrating instances for dynamic reparallelization, the task of migrating instances is formulated as a bipartite graph matching problem, which uses the Kuhn-Munkres algorithm to identify an optimal migration plan that minimizes communications. Finally, to take advantage of the grace period offered by modern clouds, we introduce stateful inference recovery, a new inference mechanism that commits inference progress at a much finer granularity and allows SpotServe to cheaply resume inference upon preemption. We evaluate on real spot instance preemption traces and various popular LLMs and show that SpotServe can reduce the P99 tail latency by 2.4 – 9.1x compared with the best existing LLM serving systems. We also show that SpotServe can leverage the price advantage of preemptive instances, saving 54% monetary cost compared with only using on-demand instances.

arxiv情報

著者 Xupeng Miao,Chunan Shi,Jiangfei Duan,Xiaoli Xi,Dahua Lin,Bin Cui,Zhihao Jia
発行日 2023-11-27 06:31:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.DC, cs.LG パーマリンク