PeaTMOSS: Mining Pre-Trained Models in Open-Source Software

要約

深層学習モデルの開発とトレーニングには費用がかかるため、ソフトウェア エンジニアは、事前トレーニングされた深層学習モデル (PTM) を再利用し、下流のタスクに合わせて微調整し始めています。
PTM は広く使用されているにもかかわらず、対応するソフトウェア エンジニアリングの動作や課題についてはほとんどわかっていません。
PTM を使用したソフトウェア エンジニアリングの研究を可能にするために、PeaTMOSS データセット: Pre-Trained Models in Open-Source Software を紹介します。
PeaTMOSS には 3 つの部分があります。(1) 281,638 個の PTM のスナップショット、(2) PTM を使用する 27,270 個のオープンソース ソフトウェア リポジトリ、(3) PTM とそれらを使用するプロジェクト間のマッピングです。
私たちは PeaTMOSS マイナーに、PTM に関するソフトウェア エンジニアリングの実践を発見するよう求めます。
デモと完全なデータセットへのリンクは、https://github.com/PurdueDualityLab/PeaTMOSS-Demos から入手できます。

要約(オリジナル)

Developing and training deep learning models is expensive, so software engineers have begun to reuse pre-trained deep learning models (PTMs) and fine-tune them for downstream tasks. Despite the wide-spread use of PTMs, we know little about the corresponding software engineering behaviors and challenges. To enable the study of software engineering with PTMs, we present the PeaTMOSS dataset: Pre-Trained Models in Open-Source Software. PeaTMOSS has three parts: a snapshot of (1) 281,638 PTMs, (2) 27,270 open-source software repositories that use PTMs, and (3) a mapping between PTMs and the projects that use them. We challenge PeaTMOSS miners to discover software engineering practices around PTMs. A demo and link to the full dataset are available at: https://github.com/PurdueDualityLab/PeaTMOSS-Demos.

arxiv情報

著者 Wenxin Jiang,Jason Jones,Jerin Yasmin,Nicholas Synovic,Rajeev Sashti,Sophie Chen,George K. Thiruvathukal,Yuan Tian,James C. Davis
発行日 2023-10-05 15:58:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SE パーマリンク