要約
大規模な言語モデル(LLM)が業界全体に広がるため、推論レベルで環境フットプリントを理解することはもはやオプションではありません。
それは不可欠です。
ただし、ほとんどの既存の研究では、独自のモデル、インフラストラクチャの変動性とオーバーヘッドを見落としている、または推論がAIの環境への影響をますます支配する場合でも、トレーニングのみに焦点を当てています。
このギャップを埋めるために、このペーパーでは、コマーシャルデータセンターに展開されている30の最先端モデルにわたってLLM推論の環境フットプリントを定量化するための新しいインフラストラクチャ対応ベンチマークフレームワークを紹介します。
当社のフレームワークでは、パブリックAPIパフォーマンスデータと、地域固有の環境乗数とハードウェア構成の統計的推論を組み合わせています。
さらに、環境コストに比べてパフォーマンスごとにモデルをランク付けするために、クロス効率データエンベロープ分析(DEA)を利用します。
私たちの結果は、O3とDeepSeek-R1が最もエネルギー集約型モデルとして出現し、長いプロンプトあたり33 WHを超え、GPT-4.1 Nanoの消費の70倍以上を消費し、Claude-3.7Sonnetがエコ効率で最高にランクされていることを示しています。
単一の短いGPT-4Oクエリは0.43 WHを消費しますが、これを7億クエリ/日にスケーリングすると、環境への大きな影響が大きくなります。
これらには、35,000の米国の家に匹敵する電力使用、120万人の年間飲酒ニーズに合った淡水蒸発、およびシカゴサイズの森林を相殺する必要がある炭素排出量が含まれます。
これらの調査結果は、成長するパラドックスを示しています。個々のクエリは効率的ですが、世界規模は不均衡なリソース消費を促進します。
私たちの研究は、LLM展開の持続可能性をベンチマークするための標準化された経験的に根拠のある方法論を提供し、AI開発と持続可能性基準における将来の環境説明責任の基盤を築きます。
要約(オリジナル)
As large language models (LLMs) spread across industries, understanding their environmental footprint at the inference level is no longer optional; it is essential. However, most existing studies exclude proprietary models, overlook infrastructural variability and overhead, or focus solely on training, even as inference increasingly dominates AI’s environmental impact. To bridge this gap, this paper introduces a novel infrastructure-aware benchmarking framework for quantifying the environmental footprint of LLM inference across 30 state-of-the-art models as deployed in commercial data centers. Our framework combines public API performance data with region-specific environmental multipliers and statistical inference of hardware configurations. We additionally utilize cross-efficiency Data Envelopment Analysis (DEA) to rank models by performance relative to environmental cost. Our results show that o3 and DeepSeek-R1 emerge as the most energy-intensive models, consuming over 33 Wh per long prompt, more than 70 times the consumption of GPT-4.1 nano, and that Claude-3.7 Sonnet ranks highest in eco-efficiency. While a single short GPT-4o query consumes 0.43 Wh, scaling this to 700 million queries/day results in substantial annual environmental impacts. These include electricity use comparable to 35,000 U.S. homes, freshwater evaporation matching the annual drinking needs of 1.2 million people, and carbon emissions requiring a Chicago-sized forest to offset. These findings illustrate a growing paradox: although individual queries are efficient, their global scale drives disproportionate resource consumption. Our study provides a standardized, empirically grounded methodology for benchmarking the sustainability of LLM deployments, laying a foundation for future environmental accountability in AI development and sustainability standards.
arxiv情報
著者 | Nidhal Jegham,Marwen Abdelatti,Lassad Elmoubarki,Abdeltawab Hendawi |
発行日 | 2025-05-14 17:47:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google