要約
ディープラーニング (DL) モデルは急速に進歩し、モデルの精度と堅牢性をテストすることで高いパフォーマンスを達成することに重点が置かれています。
ただし、他のソフトウェア システムと同様に DL プロジェクトを扱い、テストする必要がある場合、ソフトウェア システムとして DL プロジェクトが徹底的にテストされているか、機能的に正しいかは不明です。
そのため、私たちはオープンソース DL プロジェクトの単体テストを実証的に研究し、GitHub の 9,129 プロジェクトを分析しました。
1) 単体テストされた DL プロジェクトはオープンソース プロジェクトの指標と正の相関があり、プル リクエストの受け入れ率が高い、2) サンプルされた DL プロジェクトの 68% は単体テストがまったく行われていない、3) レイヤー
DL モデルのユーティリティ (utils) には、最も多くの単体テストがあります。
これらの発見と以前の研究結果に基づいて、DL プロジェクトにおける単体テストと障害の間のマッピング分類法を構築しました。
私たちは、開発者や研究者に対する調査結果の影響について議論し、オープンソース DL プロジェクトの信頼性と安定性を確保するための単体テストの必要性を強調します。
この研究は、DL プロジェクトにおける単体テストの重要性の認識を高め、この分野でのさらなる研究を奨励することで、このコミュニティに貢献します。
要約(オリジナル)
Deep Learning (DL) models have rapidly advanced, focusing on achieving high performance through testing model accuracy and robustness. However, it is unclear whether DL projects, as software systems, are tested thoroughly or functionally correct when there is a need to treat and test them like other software systems. Therefore, we empirically study the unit tests in open-source DL projects, analyzing 9,129 projects from GitHub. We find that: 1) unit tested DL projects have positive correlation with the open-source project metrics and have a higher acceptance rate of pull requests, 2) 68% of the sampled DL projects are not unit tested at all, 3) the layer and utilities (utils) of DL models have the most unit tests. Based on these findings and previous research outcomes, we built a mapping taxonomy between unit tests and faults in DL projects. We discuss the implications of our findings for developers and researchers and highlight the need for unit testing in open-source DL projects to ensure their reliability and stability. The study contributes to this community by raising awareness of the importance of unit testing in DL projects and encouraging further research in this area.
arxiv情報
著者 | Han Wang,Sijia Yu,Chunyang Chen,Burak Turhan,Xiaodong Zhu |
発行日 | 2024-02-26 13:08:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google