要約
最新の大規模言語モデル (LLM) が業界全体で広く使用されているため、これらのモデルに役立つ推論は拡大し続けています。
最新の LLM には高いコンピューティング要件とメモリ要件があるため、これらのモデルに対応するために、ますます多くの最上位の GPU が導入されています。
これらのモデルにサービスを提供するためにデータセンターを拡張する際の最大の課題として、エネルギーの可用性が最前線に浮上しています。
このペーパーでは、パフォーマンス SLO の下で機能する LLM の主な目標をエネルギー効率にすることによって生じるトレードオフについて説明します。
入力、モデル、サービス レベル アグリーメントに応じて、LLM 推論プロバイダーがエネルギー効率を高めるために使用できるいくつかのノブがあることを示します。
これらのノブがレイテンシー、スループット、エネルギーに与える影響を特徴付けます。
これらのトレードオフを調査することで、パフォーマンスを犠牲にすることなくエネルギー使用量を最適化するための貴重な洞察を提供し、それによってデータセンター環境での持続可能でコスト効率の高い LLM 導入への道を切り開きます。
要約(オリジナル)
With the ubiquitous use of modern large language models (LLMs) across industries, the inference serving for these models is ever expanding. Given the high compute and memory requirements of modern LLMs, more and more top-of-the-line GPUs are being deployed to serve these models. Energy availability has come to the forefront as the biggest challenge for data center expansion to serve these models. In this paper, we present the trade-offs brought up by making energy efficiency the primary goal of LLM serving under performance SLOs. We show that depending on the inputs, the model, and the service-level agreements, there are several knobs available to the LLM inference provider to use for being energy efficient. We characterize the impact of these knobs on the latency, throughput, as well as the energy. By exploring these trade-offs, we offer valuable insights into optimizing energy usage without compromising on performance, thereby paving the way for sustainable and cost-effective LLM deployment in data center environments.
arxiv情報
著者 | Jovan Stojkovic,Esha Choukse,Chaojie Zhang,Inigo Goiri,Josep Torrellas |
発行日 | 2024-03-29 17:22:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google