POLCA: Power Oversubscription in LLM Cloud Providers

要約

大規模言語モデル (LLM) とその無数のユースケースにおける最近の技術革新により、データセンター GPU のコンピューティング容量の需要が急速に高まっています。
いくつかのクラウド プロバイダーやその他の企業は、これらの新しいワークロードをサポートするためにデータセンターの大幅な成長計画を立てています。
データセンターの主要なボトルネック リソースの 1 つは電力であり、LLM のモデル サイズが増大することを考慮すると、LLM はますます電力を消費するようになっています。
このペーパーでは、LLM クラスターに電力をオーバーサブスクライブする重大な機会があることを示します。
電力のオーバーサブスクリプションにより、これらのデータセンターの電力効率が向上し、データセンターごとに展開可能なサーバーの数が増え、新しいデータセンターの構築に時間がかかるため、展開時間が短縮されます。
私たちは、さまざまな LLM とその構成の電力消費パターンを広範囲に特徴付けています。
推論とトレーニングの電力消費パターンの違いを特定します。
これらの LLM の分析に基づいて、推論のための LLM クラスターの平均およびピーク電力使用率はそれほど高くないはずであると主張します。
私たちの推論は実稼働 LLM クラスターからのデータと一致しており、推論ワークロードには電力のオーバーサブスクリプションに対してかなりの余裕があることがわかります。
ただし、GPU が仮想化環境で提供するテレメトリと制御の厳格なセットにより、信頼性が高く堅牢な電力オーバーサブスクリプション メカニズムを実現することが困難になります。
私たちは、堅牢で信頼性が高く、GPU クラスターにすぐに導入できる電力オーバーサブスクリプション用のフレームワークである POLCA を提案します。
オープンソース モデルを使用して本番環境で観察された電力パターンを再現することで、POLCA をシミュレーションし、パフォーマンスの損失を最小限に抑えながら、推論用に同じ GPU クラスターに 30% 多くのサーバーをデプロイできることを実証しました。

要約(オリジナル)

Recent innovation in large language models (LLMs), and their myriad use-cases have rapidly driven up the compute capacity demand for datacenter GPUs. Several cloud providers and other enterprises have made substantial plans of growth in their datacenters to support these new workloads. One of the key bottleneck resources in datacenters is power, and given the increasing model sizes of LLMs, they are becoming increasingly power intensive. In this paper, we show that there is a significant opportunity to oversubscribe power in LLM clusters. Power oversubscription improves the power efficiency of these datacenters, allowing more deployable servers per datacenter, and reduces the deployment time, since building new datacenters is slow. We extensively characterize the power consumption patterns of a variety of LLMs and their configurations. We identify the differences between the inference and training power consumption patterns. Based on our analysis of these LLMs, we claim that the average and peak power utilization in LLM clusters for inference should not be very high. Our deductions align with the data from production LLM clusters, revealing that inference workloads offer substantial headroom for power oversubscription. However, the stringent set of telemetry and controls that GPUs offer in a virtualized environment, makes it challenging to have a reliable and robust power oversubscription mechanism. We propose POLCA, our framework for power oversubscription that is robust, reliable, and readily deployable for GPU clusters. Using open-source models to replicate the power patterns observed in production, we simulate POLCA and demonstrate that we can deploy 30% more servers in the same GPU cluster for inference, with minimal performance loss

arxiv情報

著者 Pratyush Patel,Esha Choukse,Chaojie Zhang,Íñigo Goiri,Brijesh Warrier,Nithish Mahalingam,Ricardo Bianchini
発行日 2023-08-24 16:32:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AR, cs.DC, cs.LG パーマリンク