Software engineering for deep learning applications: usage of SWEng and MLops tools in GitHub repositories

要約

深層学習 (DL) の手法と技術の人気の高まりにより、深層学習ソフトウェアに対するソフトウェア エンジニアリング (SE) 実践の応用である SE4DL のトピックへの関心が高まっています。
DL ソフトウェアのデータ駆動型で非決定論的なパラダイムによってもたらされる新たなエンジニアリング上の課題にもかかわらず、AI を対象とした SE ツールの開発にはほとんど投資が行われていません。
一方で、DL におけるより一般的なエンジニアリング問題に取り組むツールは積極的に使用されており、「MLOps ツール」という包括的な用語で呼ばれています。
さらに、入手可能な文献は、DL ソフトウェア開発における従来の SE ツールの有用性を裏付けています。
オープンソース ソフトウェア作品におけるツールの使用法に関する以前の MSR 調査に基づいて、主要なプログラミング言語として Python を使用する一般的な応用 DL プロジェクトで採用されている従来のツールと MLOps ツールを特定します。
マイニングされた GitHub リポジトリの約 70% には、少なくとも 1 つの従来の SE ツールが含まれていました。
ソフトウェア構成管理ツールが最も多く採用されていますが、メンテナンス ツールはその逆です。
使用されている MLOps ツールの数は大幅に減り、少なくとも 1 つのリポジトリで使用されているツールは 80 のサンプルのうち 9 つだけでした。
それらの大部分はプロプライエタリではなくオープンソースでした。
これらのツールの 1 つである TensorBoard は、調査対象のリポジトリの約半数で採用されていることがわかりました。
したがって、従来の SE ツールの使用は、DL ソフトウェアとの関連性を示しています。
オープンソース プロジェクトによる MLOps ツールの導入については、特定のツール タイプの関連性、必要なツールの開発、および既存のツールの使用を促進する方法に焦点を当てて、さらなる研究を行うことが推奨されます。

要約(オリジナル)

The rising popularity of deep learning (DL) methods and techniques has invigorated interest in the topic of SE4DL, the application of software engineering (SE) practices on deep learning software. Despite the novel engineering challenges brought on by the data-driven and non-deterministic paradigm of DL software, little work has been invested into developing AI-targeted SE tools. On the other hand, tools tackling more general engineering issues in DL are actively used and referred to under the umbrella term of “MLOps tools”. Furthermore, the available literature supports the utility of conventional SE tooling in DL software development. Building upon previous MSR research on tool usage in open-source software works, we identify conventional and MLOps tools adopted in popular applied DL projects that use Python as the main programming language. About 70% of the GitHub repositories mined contained at least one conventional SE tool. Software configuration management tools are the most adopted, while the opposite applies to maintenance tools. Substantially fewer MLOps tools were in use, with only 9 tools out of a sample of 80 used in at least one repository. The majority of them were open-source rather than proprietary. One of these tools, TensorBoard, was found to be adopted in about half of the repositories in our study. Consequently, the use of conventional SE tooling demonstrates its relevance to DL software. Further research is recommended on the adoption of MLOps tooling by open-source projects, focusing on the relevance of particular tool types, the development of required tools, as well as ways to promote the use of already available tools.

arxiv情報

著者 Evangelia Panourgia,Theodoros Plessas,Diomidis Spinellis
発行日 2023-10-29 19:21:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SE パーマリンク