Towards Enhancing the Reproducibility of Deep Learning Bugs: An Empirical Study

要約

背景: ディープラーニングはさまざまな領域で目覚ましい進歩を遂げています。
ただし、他のソフトウェア システムと同様に、深層学習システムにもバグが含まれており、自動運転車が関与する衝突事故で明らかなように、その一部は深刻な影響を与える可能性があります。
深層学習技術は大幅に進歩しているにもかかわらず、解決に不可欠なステップである深層学習のバグの再現に焦点を当てた研究はほとんどありません。
既存の文献では、ディープラーニングのバグのうち再現性があるのはわずか 3% であることが示唆されており、さらなる研究の必要性が強調されています。
目的: この論文では、深層学習のバグの再現性を調査します。
私たちは、ディープラーニングのバグの再現性を向上させる可能性がある編集アクションと有用な情報を特定します。
方法: まず、Stack Overflow と GitHub から 3 つのフレームワークと 22 のアーキテクチャにわたる 668 個の深層学習バグのデータセットを構築します。
次に、668 個のバグのうち、層化サンプリングを使用して 165 個のバグを選択し、それらの再現性を判断します。
これらのバグを再現しながら、編集アクションと再現に役立つ情報を特定します。
3 番目に、Apriori アルゴリズムを使用して、有用な情報を特定し、特定の種類のバグを再現するために必要なアクションを編集しました。
最後に、実際の環境における調査結果の有効性を評価するために、22 人の開発者が参加するユーザー調査を実施しました。
結果: 試みられた 165 個のバグのうち 148 個の再現に成功しました。
私たちは、深層学習のバグを再現するのに役立つ 10 個の編集アクションと 5 種類の有用なコンポーネント情報を特定しました。
私たちの発見の助けを借りて、開発者は 22.92% 多くのバグを再現し、再現時間を 24.35% 短縮することができました。
結論: 私たちの研究は、ディープラーニングのバグ再現性という重大な問題に対処しています。
実務者や研究者は、私たちの発見を活用して、ディープラーニングのバグの再現性を向上させることができます。

要約(オリジナル)

Context: Deep learning has achieved remarkable progress in various domains. However, like any software system, deep learning systems contain bugs, some of which can have severe impacts, as evidenced by crashes involving autonomous vehicles. Despite substantial advancements in deep learning techniques, little research has focused on reproducing deep learning bugs, which is an essential step for their resolution. Existing literature suggests that only 3% of deep learning bugs are reproducible, underscoring the need for further research. Objective: This paper examines the reproducibility of deep learning bugs. We identify edit actions and useful information that could improve the reproducibility of deep learning bugs. Method: First, we construct a dataset of 668 deep-learning bugs from Stack Overflow and GitHub across three frameworks and 22 architectures. Second, out of the 668 bugs, we select 165 bugs using stratified sampling and attempt to determine their reproducibility. While reproducing these bugs, we identify edit actions and useful information for their reproduction. Third, we used the Apriori algorithm to identify useful information and edit actions required to reproduce specific types of bugs. Finally, we conducted a user study involving 22 developers to assess the effectiveness of our findings in real-life settings. Results: We successfully reproduced 148 out of 165 bugs attempted. We identified ten edit actions and five useful types of component information that can help us reproduce the deep learning bugs. With the help of our findings, the developers were able to reproduce 22.92% more bugs and reduce their reproduction time by 24.35%. Conclusions: Our research addresses the critical issue of deep learning bug reproducibility. Practitioners and researchers can leverage our findings to improve deep learning bug reproducibility.

arxiv情報

著者 Mehil B. Shah,Mohammad Masudur Rahman,Foutse Khomh
発行日 2024-10-22 14:50:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SE パーマリンク