From Words to Watts: Benchmarking the Energy Costs of Large Language Model Inference

要約

大規模言語モデル (LLM) は、これまでの最先端技術をはるかに超えた新しい生成機能により、爆発的に人気が高まっています。
これらのテクノロジーは、法律、金融、医療などのさまざまな分野でますます活用されています。
ただし、これらのモデルには、特に推論に必要な計算コストとエネルギーコストといった、計算上の大きな課題があります。
実際に推論を行うためにこれらの大規模なモデルがどれほど頻繁に呼び出されるかにもかかわらず (ChatGPT など)、推論のエネルギー コストは、LLM のトレーニングのエネルギー コストほど注目されていません。
これらの最先端の LLM は、さまざまなドメインでの使用と導入が増加しているため、コスト削減、パフォーマンスのスケーリング、ハードウェアの効率的な使用、最適な推論戦略にとって、そのリソース使用率をより深く理解することが重要です。
この論文では、LLM を使用した推論の計算とエネルギーの利用を研究するために行われた実験について説明します。
2 世代の人気のある GPU (NVIDIA V100 \& A100) で Meta AI によって開発された LLaMA (最近の最先端の LLM) のさまざまなサイズの推論パフォーマンスと推論エネルギー コストのベンチマークを実行し、予備分析を実施します。
) と 2 つのデータセット (Alpaca と GSM8K) を使用して、研究と実践における LLM の多様なタスク/ベンチマークを反映します。
最大 32 GPU にわたるモデル シャーディングを使用したマルチノード、マルチ GPU 推論の結果を示します。
私たちの知る限り、私たちの研究は、この規模で計算リソースとエネルギー リソースの観点から LLM 推論のパフォーマンスを研究した最初の研究の 1 つです。

要約(オリジナル)

Large language models (LLMs) have exploded in popularity due to their new generative capabilities that go far beyond prior state-of-the-art. These technologies are increasingly being leveraged in various domains such as law, finance, and medicine. However, these models carry significant computational challenges, especially the compute and energy costs required for inference. Inference energy costs already receive less attention than the energy costs of training LLMs — despite how often these large models are called on to conduct inference in reality (e.g., ChatGPT). As these state-of-the-art LLMs see increasing usage and deployment in various domains, a better understanding of their resource utilization is crucial for cost-savings, scaling performance, efficient hardware usage, and optimal inference strategies. In this paper, we describe experiments conducted to study the computational and energy utilization of inference with LLMs. We benchmark and conduct a preliminary analysis of the inference performance and inference energy costs of different sizes of LLaMA — a recent state-of-the-art LLM — developed by Meta AI on two generations of popular GPUs (NVIDIA V100 \& A100) and two datasets (Alpaca and GSM8K) to reflect the diverse set of tasks/benchmarks for LLMs in research and practice. We present the results of multi-node, multi-GPU inference using model sharding across up to 32 GPUs. To our knowledge, our work is the one of the first to study LLM inference performance from the perspective of computational and energy resources at this scale.

arxiv情報

著者 Siddharth Samsi,Dan Zhao,Joseph McDonald,Baolin Li,Adam Michaleas,Michael Jones,William Bergeron,Jeremy Kepner,Devesh Tiwari,Vijay Gadepally
発行日 2023-10-04 17:41:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.DC パーマリンク