A Large-Scale Study of Model Integration in ML-Enabled Software Systems

要約

機械学習 (ML) とそのシステムへの組み込みの台頭により、ソフトウェア集約型システムのエンジニアリングは劇的に変化しました。
従来、ソフトウェア エンジニアリングは、ソース コードなどの手動で作成された成果物とその作成プロセス、およびそれらを統合するためのベスト プラクティス、つまりソフトウェア アーキテクチャに焦点を当ててきました。
対照的に、ML アーティファクト、つまり ML モデルの開発はデータ サイエンスに由来し、ML モデルとそのトレーニング データに焦点を当てています。
ただし、エンド ユーザーに価値を提供するには、これらの ML モデルを従来のソフトウェアに埋め込む必要があり、多くの場合、複雑なトポロジを形成します。
実際、ML 対応ソフトウェアには、さまざまな ML モデルを簡単に組み込むことができます。
ML 対応システムを構築する際の課題と実践方法は、個別の例を除いてある程度研究されていますが、現実世界の ML 対応システムの特性についてはほとんど知られていません。
ML モデルをシステムに適切に埋め込んで、メンテナンスや再利用を容易にすることは決して簡単なことではありません。
このようなシステムについての経験的理解を改善する必要があり、GitHub 上の 2,928 を超えるオープン ソース システムを対象とした、実際の ML 対応ソフトウェア システムに関する初の大規模研究を発表することで、これに対処します。
私たちはそれらを分類して分析し、その特徴、ML モデルと関連コードを再利用するための実践方法、およびこれらのシステムのアーキテクチャを特定しました。
私たちの調査結果は、実務者や研究者に、ML モデルの埋め込みと統合の実践に関する洞察を提供し、データ サイエンスとソフトウェア エンジニアリングを緊密に結び付けます。

要約(オリジナル)

The rise of machine learning (ML) and its embedding in systems has drastically changed the engineering of software-intensive systems. Traditionally, software engineering focuses on manually created artifacts such as source code and the process of creating them, as well as best practices for integrating them, i.e., software architectures. In contrast, the development of ML artifacts, i.e. ML models, comes from data science and focuses on the ML models and their training data. However, to deliver value to end users, these ML models must be embedded in traditional software, often forming complex topologies. In fact, ML-enabled software can easily incorporate many different ML models. While the challenges and practices of building ML-enabled systems have been studied to some extent, beyond isolated examples, little is known about the characteristics of real-world ML-enabled systems. Properly embedding ML models in systems so that they can be easily maintained or reused is far from trivial. We need to improve our empirical understanding of such systems, which we address by presenting the first large-scale study of real ML-enabled software systems, covering over 2,928 open source systems on GitHub. We classified and analyzed them to determine their characteristics, as well as their practices for reusing ML models and related code, and the architecture of these systems. Our findings provide practitioners and researchers with insight into practices for embedding and integrating ML models, bringing data science and software engineering closer together.

arxiv情報

著者 Yorick Sens,Henriette Knopp,Sven Peldszus,Thorsten Berger
発行日 2024-08-12 15:28:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.SE パーマリンク