Towards a Classification of Open-Source ML Models and Datasets for Software Engineering

要約

背景: オープンソースの事前トレーニング済みモデル (PTM) とデータセットは、さまざまな機械学習 (ML) タスク用の広範なリソースを提供しますが、これらのリソースにはソフトウェア エンジニアリング (SE) のニーズに合わせた分類が欠けています。
目的: SE 指向の分類を、人気のあるオープンソース ML リポジトリである Hugging Face (HF) 上の PTM とデータセットに適用し、時間の経過に伴う PTM の進化を分析します。
方法: リポジトリ マイニング調査を実施しました。
私たちは、HF API から体系的に収集された PTM とデータセットのデータベースから始めました。
私たちの選択は、モデルとデータセットのカードとタグなどのメタデータを分析し、Gemini 1.5 Pro を使用して SE の関連性を確認することによって洗練されました。
すべての分析は複製可能であり、公的にアクセス可能な複製パッケージを使用できます。
結果: PTM およびデータセット間で最も一般的な SE タスクはコード生成であり、主にソフトウェア開発に重点が置かれ、ソフトウェア管理には限定的に注意が払われます。
一般的な PTM とデータセットは主にソフトウェア開発を対象としています。
ML タスクの中で、SE PTM とデータセットではテキスト生成が最も一般的です。
2023 年第 2 四半期以降、SE 向けの PTM が顕著に増加しました。
結論: この研究は、SE 実践における ML の統合を強化するために、より広範なタスクをカバーする必要性を強調しています。

要約(オリジナル)

Background: Open-Source Pre-Trained Models (PTMs) and datasets provide extensive resources for various Machine Learning (ML) tasks, yet these resources lack a classification tailored to Software Engineering (SE) needs. Aims: We apply an SE-oriented classification to PTMs and datasets on a popular open-source ML repository, Hugging Face (HF), and analyze the evolution of PTMs over time. Method: We conducted a repository mining study. We started with a systematically gathered database of PTMs and datasets from the HF API. Our selection was refined by analyzing model and dataset cards and metadata, such as tags, and confirming SE relevance using Gemini 1.5 Pro. All analyses are replicable, with a publicly accessible replication package. Results: The most common SE task among PTMs and datasets is code generation, with a primary focus on software development and limited attention to software management. Popular PTMs and datasets mainly target software development. Among ML tasks, text generation is the most common in SE PTMs and datasets. There has been a marked increase in PTMs for SE since 2023 Q2. Conclusions: This study underscores the need for broader task coverage to enhance the integration of ML within SE practices.

arxiv情報

著者 Alexandra González,Xavier Franch,David Lo,Silverio Martínez-Fernández
発行日 2024-11-14 18:52:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.SE パーマリンク