How do Machine Learning Projects use Continuous Integration Practices? An Empirical Study on GitHub Actions

要約

継続的インテグレーション (CI) は、従来のソフトウェア開発において確立された手法ですが、機械学習 (ML) プロジェクトの領域におけるその微妙な違いは、比較的未調査のままです。
ML 開発の独特の性質を考えると、効果的なアプローチを調整するには、この文脈で CI プラクティスがどのように採用されるかを理解することが重要です。
この調査では、GitHub 上の 185 のオープンソース プロジェクト (93 の ML プロジェクトと 92 の非 ML プロジェクト) の包括的な分析を実行します。
私たちの調査は定量的側面と定性的側面の両方で構成されており、ML プロジェクトと非 ML プロジェクトの間の CI 導入の違いを明らかにすることを目的としています。
私たちの調査結果によると、ML プロジェクトではビルド時間が長くなることが多く、中規模の ML プロジェクトは非 ML プロジェクトに比べてテスト カバレッジが低いことがわかりました。
さらに、中小規模の ML プロジェクトでは、非 ML プロジェクトと比較して、ビルド期間が長くなる傾向がより顕著に見られます。
さらに、定性分析は、CI ビルドの実行とステータス、CI テスト、CI インフラストラクチャなどのテーマを含む、ML プロジェクトと非 ML プロジェクトの両方における CI に関する議論を明らかにします。
これらの洞察は、CI プラクティスを効果的に導入する際に ML プロジェクトが直面する特有の課題に光を当てます。

要約(オリジナル)

Continuous Integration (CI) is a well-established practice in traditional software development, but its nuances in the domain of Machine Learning (ML) projects remain relatively unexplored. Given the distinctive nature of ML development, understanding how CI practices are adopted in this context is crucial for tailoring effective approaches. In this study, we conduct a comprehensive analysis of 185 open-source projects on GitHub (93 ML and 92 non-ML projects). Our investigation comprises both quantitative and qualitative dimensions, aiming to uncover differences in CI adoption between ML and non-ML projects. Our findings indicate that ML projects often require longer build durations, and medium-sized ML projects exhibit lower test coverage compared to non-ML projects. Moreover, small and medium-sized ML projects show a higher prevalence of increasing build duration trends compared to their non-ML counterparts. Additionally, our qualitative analysis illuminates the discussions around CI in both ML and non-ML projects, encompassing themes like CI Build Execution and Status, CI Testing, and CI Infrastructure. These insights shed light on the unique challenges faced by ML projects in adopting CI practices effectively.

arxiv情報

著者 João Helis Bernardo,Daniel Alencar da Costa,Sérgio Queiroz de Medeiros,Uirá Kulesza
発行日 2024-03-14 16:35:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SE パーマリンク