Exploring the Carbon Footprint of Hugging Face’s ML Models: A Repository Mining Study

要約

機械学習 (ML) システムの台頭により、機能とモデル サイズが増加したため、二酸化炭素排出量はさらに悪化しています。
ただし、ML モデルの二酸化炭素排出量が実際にどのように測定、報告、評価されるかについてはほとんど知識がありません。
これを考慮して、この論文は、事前トレーニング済み ML モデルの最も人気のあるリポジトリである Hugging Face 上の 1,417 の ML モデルと関連データセットの二酸化炭素排出量の測定を分析することを目的としています。
目標は、ML モデルの炭素効率をレポートおよび最適化する方法に関する洞察と推奨事項を提供することです。
この調査には、炭素排出量に関する Hugging Face Hub API に関する最初のリポジトリ マイニング調査が含まれています。
この研究は、(1) ML モデルの作成者は、Hugging Face Hub での二酸化炭素排出量をどのように測定して報告するのか、(2) トレーニング ML モデルの二酸化炭素排出量にはどのような側面が影響するのか、という 2 つの研究上の疑問に答えることを目的としています。
この研究により、いくつかの重要な発見が得られました。
これらには、炭素排出量報告モデルの割合が停滞していること、過去 2 年間で Hugging Face で報告されている二酸化炭素排出量がわずかに減少していること、主要なアプリケーション領域として NLP が引き続き優勢であることが含まれます。
さらに、この研究では、炭素排出量と、モデル サイズ、データセット サイズ、ML アプリケーション ドメインなどのさまざまな属性との相関関係が明らかになりました。
これらの結果は、Hugging Face コミュニティ内でエネルギー報告の実践を改善し、炭素効率の高いモデル開発を促進するためのソフトウェア測定の必要性を浮き彫りにしています。
この問題に対応して、2 つの分類が提案されています。1 つは炭素排出量報告の実践に基づいてモデルを分類するもので、もう 1 つは炭素効率に基づいて分類されます。
これらの分類提案の目的は、ML コミュニティ内での透明性と持続可能なモデル開発を促進することです。

要約(オリジナル)

The rise of machine learning (ML) systems has exacerbated their carbon footprint due to increased capabilities and model sizes. However, there is scarce knowledge on how the carbon footprint of ML models is actually measured, reported, and evaluated. In light of this, the paper aims to analyze the measurement of the carbon footprint of 1,417 ML models and associated datasets on Hugging Face, which is the most popular repository for pretrained ML models. The goal is to provide insights and recommendations on how to report and optimize the carbon efficiency of ML models. The study includes the first repository mining study on the Hugging Face Hub API on carbon emissions. This study seeks to answer two research questions: (1) how do ML model creators measure and report carbon emissions on Hugging Face Hub?, and (2) what aspects impact the carbon emissions of training ML models? The study yielded several key findings. These include a stalled proportion of carbon emissions-reporting models, a slight decrease in reported carbon footprint on Hugging Face over the past 2 years, and a continued dominance of NLP as the main application domain. Furthermore, the study uncovers correlations between carbon emissions and various attributes such as model size, dataset size, and ML application domains. These results highlight the need for software measurements to improve energy reporting practices and promote carbon-efficient model development within the Hugging Face community. In response to this issue, two classifications are proposed: one for categorizing models based on their carbon emission reporting practices and another for their carbon efficiency. The aim of these classification proposals is to foster transparency and sustainable model development within the ML community.

arxiv情報

著者 Joel Castaño,Silverio Martínez-Fernández,Xavier Franch,Justus Bogner
発行日 2023-07-28 13:29:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CY, cs.IR, cs.LG, stat.ML パーマリンク