Good Tools are Half the Work: Tool Usage in Deep Learning Projects

要約

深層学習 (DL) の手法と技術の人気の高まりにより、深層学習ソフトウェアに対するソフトウェア エンジニアリング (SE) 実践の応用である SE4DL (深層学習のためのソフトウェア エンジニアリング) のトピックへの関心が高まっています。
DL ソフトウェアのデータ駆動型で非決定論的なパラダイムによってもたらされる新たなエンジニアリング上の課題にもかかわらず、DL を対象とした SE ツールの開発にはほとんど労力が費やされていません。
一方で、DL 特有の非 SE 問題に取り組むツールは積極的に使用されており、「MLOps (Machine Learning Operations) ツール」という総称で呼ばれています。
それにもかかわらず、入手可能な文献は、DL ソフトウェア開発における従来の SE ツールの有用性を裏付けています。
オープンソース ソフトウェア作品におけるツールの使用法に関する以前のマイニング ソフトウェア リポジトリ (MSR) の調査に基づいて、主要なプログラミング言語として Python を使用する一般的な応用 DL プロジェクトで採用されている従来のツールと MLOps ツールを特定します。
私たちが調査した GitHub リポジトリの約 63\% には、少なくとも 1 つの従来の SE ツールが含まれていました。
ソフトウェア構築ツールが最も広く採用されていますが、管理およびメンテナンス ツールはその逆です。
使用されていることが判明した MLOps ツールは比較的少なく、少なくとも 1 つのリポジトリで使用されている 74 個のサンプルのうち 20 個のツールのみでした。
それらの大部分はプロプライエタリではなくオープンソースでした。
これらのツールの 1 つである TensorBoard は、調査対象のリポジトリの約半数で採用されていることがわかりました。
したがって、従来の SE ツールが広く使用されているということは、DL ソフトウェアとの関連性を示しています。
MLOps ツールの導入については、特定のツール タイプの関連性、必要なツールの開発、および既存のツールの使用を促進する方法に焦点を当てて、さらなる研究を行うことが推奨されます。

要約(オリジナル)

The rising popularity of deep learning (DL) methods and techniques has invigorated interest in the topic of SE4DL (Software Engineering for Deep Learning), the application of software engineering (SE) practices on deep learning software. Despite the novel engineering challenges brought on by the data-driven and non-deterministic paradigm of DL software, little work has been invested into developing DL-targeted SE tools. On the other hand, tools tackling non-SE issues specific to DL are actively used and referred to under the umbrella term ‘MLOps (Machine Learning Operations) tools’. Nevertheless, the available literature supports the utility of conventional SE tooling in DL software development. Building upon previous mining software repositories (MSR) research on tool usage in open-source software works, we identify conventional and MLOps tools adopted in popular applied DL projects that use Python as the main programming language. About 63\% of the GitHub repositories we examined contained at least one conventional SE tool. Software construction tools are the most widely adopted, while the opposite applies to management and maintenance tools. Relatively few MLOps tools were found to be use, with only 20 tools out of a sample of 74 used in at least one repository. The majority of them were open-source rather than proprietary. One of these tools, TensorBoard, was found to be adopted in about half of the repositories in our study. Consequently, the widespread use of conventional SE tooling demonstrates its relevance to DL software. Further research is recommended on the adoption of MLOps tooling, focusing on the relevance of particular tool types, the development of required tools, as well as ways to promote the use of already available tools.

arxiv情報

著者 Evangelia Panourgia,Theodoros Plessas,Ilias Balampanis,Diomidis Spinellis
発行日 2024-05-28 16:13:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SE パーマリンク