LLMCarbon: Modeling the end-to-end Carbon Footprint of Large Language Models

要約

大規模言語モデル (LLM) に関連する二酸化炭素排出量は、運用および具体化された二酸化炭素排出量を含む、トレーニング、推論、実験、および保管プロセスからの排出量を含む重大な懸念事項です。
重要な側面は、GPU の使用量に大きく依存する新興 LLM の二酸化炭素への影響を、トレーニング前であっても正確に推定することです。
既存の研究では LLM トレーニングの二酸化炭素排出量が報告されていますが、フィジカル トレーニング前に新しいニューラル ネットワークの二酸化炭素排出量を予測できるツールは mlco2 のみです。
ただし、mlco2 にはいくつかの重大な制限があります。
推定を高密度または専門家混合 (MoE) LLM に拡張することはできず、重要なアーキテクチャ パラメーターを無視し、GPU のみに焦点を当て、具体化された二酸化炭素排出量をモデル化することはできません。
これらのギャップに対処するために、高密度 LLM と MoE LLM の両方向けに設計されたエンドツーエンドの二酸化炭素排出量予測モデルである \textit{\carb} を導入します。
mlco2 と比較して、 \carb~ はさまざまな LLM の二酸化炭素排出量推定の精度を大幅に向上させます。
ソースコードは\url{https://github.com/SotaroKaneda/MLCarbon}で公開されています。

要約(オリジナル)

The carbon footprint associated with large language models (LLMs) is a significant concern, encompassing emissions from their training, inference, experimentation, and storage processes, including operational and embodied carbon emissions. An essential aspect is accurately estimating the carbon impact of emerging LLMs even before their training, which heavily relies on GPU usage. Existing studies have reported the carbon footprint of LLM training, but only one tool, mlco2, can predict the carbon footprint of new neural networks prior to physical training. However, mlco2 has several serious limitations. It cannot extend its estimation to dense or mixture-of-experts (MoE) LLMs, disregards critical architectural parameters, focuses solely on GPUs, and cannot model embodied carbon footprints. Addressing these gaps, we introduce \textit{\carb}, an end-to-end carbon footprint projection model designed for both dense and MoE LLMs. Compared to mlco2, \carb~significantly enhances the accuracy of carbon footprint estimations for various LLMs. The source code is released at \url{https://github.com/SotaroKaneda/MLCarbon}.

arxiv情報

著者 Ahmad Faiz,Sotaro Kaneda,Ruhan Wang,Rita Osi,Prateek Sharma,Fan Chen,Lei Jiang
発行日 2024-01-19 17:33:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY, cs.LG パーマリンク