Investigating Energy Efficiency and Performance Trade-offs in LLM Inference Across Tasks and DVFS Settings

要約

大規模な言語モデル(LLMS)は、幅広い自然言語処理(NLP)タスクで顕著なパフォーマンスを実証しており、研究と業界の両方で広範な採用につながりました。
しかし、それらの推論ワークロードは計算的かつエネルギー集約的であり、持続可能性と環境への影響に関する懸念を引き起こします。
LLMSが拡大し続けるにつれて、パフォーマンスを損なうことなく、ランタイム効率に影響を与える要因を特定して最適化することが不可欠になります。
この作業では、推論中のLLMのエネルギーパフォーマンスのトレードオフを体系的に調査します。
Falcon-7B、Mistral-7B-V0.1、Llama-3.2-1B、Llama-3.2-3B、およびGPT-Neo-2.7Bなど、さまざまなサイズとアーキテクチャのモデルをベンチマークし、質問、共通の推論、事実上の世代などのタスクを介して。
シーケンス長、エントロピー、名前付きエンティティ密度などの入力特性の効果を分析します。
さらに、動的電圧と周波数スケーリング(DVFS)を介したハードウェアレベルの最適化の影響を調べ、異なるGPUクロック設定がレイテンシと電力消費にどのように影響するかを測定します。
私たちの経験的調査結果は、モデルアーキテクチャ、入力の複雑さ、およびクロック構成が推論効率に大きく影響することを示しています。
入力機能をエネルギーメトリックと相関させ、DVFSの動作を評価することにより、モデルの品質を維持しながらエネルギー消費を最大30%削減する実用的な戦略を特定します。
この研究は、エネルギー効率が高く持続可能なLLM推論システムを設計するための実用的な洞察を提供します。

要約(オリジナル)

Large Language Models (LLMs) have demonstrated remarkable performance across a wide range of natural language processing (NLP) tasks, leading to widespread adoption in both research and industry. However, their inference workloads are computationally and energy intensive, raising concerns about sustainability and environmental impact. As LLMs continue to scale, it becomes essential to identify and optimize the factors that influence their runtime efficiency without compromising performance. In this work, we systematically investigate the energy-performance trade-offs of LLMs during inference. We benchmark models of varying sizes and architectures, including Falcon-7B, Mistral-7B-v0.1, LLaMA-3.2-1B, LLaMA-3.2-3B, and GPT-Neo-2.7B, across tasks such as question answering, commonsense reasoning, and factual generation. We analyze the effect of input characteristics, such as sequence length, entropy, named entity density and so on. Furthermore, we examine the impact of hardware-level optimizations through Dynamic Voltage and Frequency Scaling (DVFS), measuring how different GPU clock settings affect latency and power consumption. Our empirical findings show that model architecture, input complexity, and clock configuration significantly influence inference efficiency. By correlating input features with energy metrics and evaluating DVFS behavior, we identify practical strategies that reduce energy consumption by up to 30% while preserving model quality. This study provides actionable insights for designing energy-efficient and sustainable LLM inference systems.

arxiv情報

著者 Paul Joe Maliakel,Shashikant Ilager,Ivona Brandic
発行日 2025-06-02 09:12:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク