An Exploratory Literature Study on Sharing and Energy Use of Language Models for Source Code

要約

ソース コードでトレーニングされた大規模な言語モデルは、コードの推奨やプログラムの修復など、さまざまなソフトウェア開発タスクをサポートできます。
このようなモデルをトレーニングするための大量のデータは、モデルのパフォーマンスに利益をもたらします。
ただし、データとモデルのサイズが大きいため、トレーニング時間が長くなり、エネルギー消費が高くなります。
ソース コードを公開すると複製可能になりますが、モデルが共有されない場合、ユーザーは高価なトレーニング プロセスを繰り返す必要があります。
この調査の主な目的は、ソフトウェア エンジニアリング (SE) タスク用に言語モデルをトレーニングした出版物がソース コードとトレーニングされたアーティファクトを共有しているかどうかを調査することです。
2 番目の目標は、トレーニングのエネルギー使用量の透明性を分析することです。
私たちは雪だるま式の文献検索を実行して、ソース コードの言語モデルに関する出版物を見つけ、持続可能性の観点からその再利用性を分析します。
494 の固有の出版物から、言語モデルを使用してコード関連のタスクに対処する 293 の関連出版物を特定しました。
そのうち 27% (293 件中 79 件) はアーティファクトを再利用できるようにしています。
これは、特定のタスク用に設計されたツールまたは IDE プラグインの形式、またはさまざまなダウンストリーム タスクに合わせて微調整できるタスク非依存モデルの形式で行うことができます。
さらに、モデルのトレーニングに使用されるハードウェアとトレーニング時間に関する洞察を収集し、それらを総合して開発プロセスのエネルギー消費量を決定します。
ソフトウェア エンジニアリング タスクのソース コード モデルに関する現在の研究では、情報と成果物の共有に欠陥があり、調査対象の論文の 40% がソース コードやトレーニングされた成果物を共有していないことがわかりました。
持続可能な再現性を可能にするために、ソース コードとトレーニングされたアーティファクトを共有することをお勧めします。
さらに、モデルの二酸化炭素排出量の透明性を確保するために、トレーニング時間とハードウェア構成に関する包括的な情報を共有する必要があります。

要約(オリジナル)

Large language models trained on source code can support a variety of software development tasks, such as code recommendation and program repair. Large amounts of data for training such models benefit the models’ performance. However, the size of the data and models results in long training times and high energy consumption. While publishing source code allows for replicability, users need to repeat the expensive training process if models are not shared. The main goal of the study is to investigate if publications that trained language models for software engineering (SE) tasks share source code and trained artifacts. The second goal is to analyze the transparency on training energy usage. We perform a snowballing-based literature search to find publications on language models for source code, and analyze their reusability from a sustainability standpoint. From 494 unique publications, we identified 293 relevant publications that use language models to address code-related tasks. Among them, 27% (79 out of 293) make artifacts available for reuse. This can be in the form of tools or IDE plugins designed for specific tasks or task-agnostic models that can be fine-tuned for a variety of downstream tasks. Moreover, we collect insights on the hardware used for model training, as well as training time, which together determine the energy consumption of the development process. We find that there are deficiencies in the sharing of information and artifacts for current studies on source code models for software engineering tasks, with 40% of the surveyed papers not sharing source code or trained artifacts. We recommend the sharing of source code as well as trained artifacts, to enable sustainable reproducibility. Moreover, comprehensive information on training times and hardware configurations should be shared for transparency on a model’s carbon footprint.

arxiv情報

著者 Max Hort,Anastasiia Grishina,Leon Moonen
発行日 2023-07-05 17:13:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, cs.NE, cs.SE パーマリンク