要約
大規模言語モデル (LLM) は、多くの自然言語処理 (NLP) タスクで大幅な改善を示し、多くの業界での急速な導入が加速しています。
これらのモデルはリソースを大量に消費し、トレーニングと推論の両方で大量の計算リソースを必要とするため、エネルギー消費の増加と環境への悪影響につながります。
LLM の導入が加速するにつれて、LLM の持続可能性が重要な問題となっており、パフォーマンスを犠牲にすることなく実行時の効率を最適化する戦略が必要になっています。
したがって、LLM のパフォーマンスとエネルギー効率に大きな影響を与えるパラメータを特定することが不可欠です。
そのために、この研究では、推論中の LLM のパフォーマンスとエネルギー効率に対する重要なパラメーターの影響を調査し、それらのトレードオフを検討します。
まず、Falcon-7B、Mistral-7B-v0.1、T5-3B、GPT などの LLM をベンチマークすることで、さまざまな数のパラメーターとアーキテクチャを持つさまざまなタイプのモデルが、テキスト生成、質問応答、要約などのタスクでどのように実行されるかを分析します。
-2、GPT-J-6B、および GPT-Neo-2.7B。
次に、エネルギー消費、パフォーマンス、スループットに関するシーケンス長などの入力および出力シーケンスの特性を研究します。
最後に、ハードウェア ベースの省電力技術、つまり動的電圧周波数スケーリング (DVFS) がモデルの遅延とエネルギー効率に及ぼす影響を調査します。
当社の広範なベンチマークと統計分析により、多くの興味深い発見が明らかになり、特定の最適化によってスループットと精度を維持しながらエネルギー消費をどのように削減できるかが明らかになりました。
この研究は、研究者や実務家がエネルギー効率の高い LLM 推論システムを設計するための実用的な洞察を提供します。
要約(オリジナル)
Large language models (LLMs) have shown significant improvements in many natural language processing (NLP) tasks, accelerating their rapid adoption across many industries. These models are resource-intensive, requiring extensive computational resources both during training and inference, leading to increased energy consumption and negative environmental impact. As their adoption accelerates, the sustainability of LLMs has become a critical issue, necessitating strategies to optimize their runtime efficiency without compromising performance. Hence, it is imperative to identify the parameters that significantly influence the performance and energy efficiency of LLMs. To that end, in this work, we investigate the effect of important parameters on the performance and energy efficiency of LLMs during inference and examine their trade-offs. First, we analyze how different types of models with varying numbers of parameters and architectures perform on tasks like text generation, question answering, and summarization by benchmarking LLMs such as Falcon-7B, Mistral-7B-v0.1, T5-3B, GPT-2, GPT-J-6B, and GPT-Neo-2.7B. Second, we study input and output sequence characteristics such as sequence length concerning energy consumption, performance, and throughput. Finally, we explore the impact of hardware-based power-saving techniques, i.e., Dynamic Voltage Frequency Scaling (DVFS), on the models’ latency and energy efficiency. Our extensive benchmarking and statistical analysis reveal many interesting findings, uncovering how specific optimizations can reduce energy consumption while maintaining throughput and accuracy. This study provides actionable insights for researchers and practitioners to design energy-efficient LLM inference systems.
arxiv情報
著者 | Paul Joe Maliakel,Shashikant Ilager,Ivona Brandic |
発行日 | 2025-01-14 16:02:33+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google