Energy and Carbon Considerations of Fine-Tuning BERT

要約

NLP コミュニティでは「事前トレーニングしてから微調整する」パラダイムが人気があるにもかかわらず、エネルギー コストとそれに伴う二酸化炭素排出量を定量化する既存の研究は主に言語モデルの事前トレーニングに焦点を当ててきました。
1 回の事前トレーニングの実行は微調整よりも大幅に多くのエネルギーを消費しますが、微調整はより多くの個々のアクターによってより頻繁に実行されるため、NLP のエネルギーと二酸化炭素排出量を考慮する際には考慮する必要があります。
NLP におけるエネルギーと炭素排出の状況における微調整の役割をより適切に特徴付けるために、タスク、データセット、ハードウェア インフラストラクチャ、および測定方式にわたる微調整の計算コストについて慎重な実証研究を実行します。
私たちの実験結果により、事前トレーニングと推論に関してエネルギーと炭素のコストの微調整を視野に入れることができ、エネルギー効率の微調整を改善したいと考えている NLP 研究者や実践者への推奨事項を概説することができます。

要約(オリジナル)

Despite the popularity of the `pre-train then fine-tune’ paradigm in the NLP community, existing work quantifying energy costs and associated carbon emissions has largely focused on language model pre-training. Although a single pre-training run draws substantially more energy than fine-tuning, fine-tuning is performed more frequently by many more individual actors, and thus must be accounted for when considering the energy and carbon footprint of NLP. In order to better characterize the role of fine-tuning in the landscape of energy and carbon emissions in NLP, we perform a careful empirical study of the computational costs of fine-tuning across tasks, datasets, hardware infrastructure and measurement modalities. Our experimental results allow us to place fine-tuning energy and carbon costs into perspective with respect to pre-training and inference, and outline recommendations to NLP researchers and practitioners who wish to improve their fine-tuning energy efficiency.

arxiv情報

著者 Xiaorong Wang,Clara Na,Emma Strubell,Sorelle Friedler,Sasha Luccioni
発行日 2024-10-16 17:22:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク