要約
機械学習テストに関する研究の多くは、その可能性を評価して示す実証研究に基づいています。
ただし、この文脈では、経験的結果は、実験の結果に悪影響を及ぼし、誤った結論(タイプ I の誤り、つまり、帰無仮説を誤って棄却する)につながる可能性のある多くのパラメータの影響を受けやすくなります。
この目的を達成するために、私たちは関連文献を調査し、実験結果に大きな影響を与える可能性のある、一般的に採用されている 10 個の経験的評価の危険性を特定します。
次に、トップレベルの SE 会場で発表された 30 件の影響力のある研究について、ハザードセットに対して感度分析を実行し、その重要性を実証します。
私たちの調査結果は、私たちが特定した 10 個の危険性はすべて、関連文献による実験結果などを無効にする可能性があり、適切に処理する必要があることを示しています。
さらに一歩進んで、危険の影響を軽減する可能性がある 10 の優れた経験的実践のポイントセットを提案します。
私たちは、私たちの取り組みがソフトウェア エンジニアリング コミュニティ内でよくある落とし穴と優れた実践方法についての認識を高めるための第一歩となると信じており、ディープ ラーニング テストの分野における実証研究に対する特別な期待の設定に貢献できればと考えています。
要約(オリジナル)
Much research on Machine Learning testing relies on empirical studies that evaluate and show their potential. However, in this context empirical results are sensitive to a number of parameters that can adversely impact the results of the experiments and potentially lead to wrong conclusions (Type I errors, i.e., incorrectly rejecting the Null Hypothesis). To this end, we survey the related literature and identify 10 commonly adopted empirical evaluation hazards that may significantly impact experimental results. We then perform a sensitivity analysis on 30 influential studies that were published in top-tier SE venues, against our hazard set and demonstrate their criticality. Our findings indicate that all 10 hazards we identify have the potential to invalidate experimental findings, such as those made by the related literature, and should be handled properly. Going a step further, we propose a point set of 10 good empirical practices that has the potential to mitigate the impact of the hazards. We believe our work forms the first step towards raising awareness of the common pitfalls and good practices within the software engineering community and hopefully contribute towards setting particular expectations for empirical research in the field of deep learning testing.
arxiv情報
著者 | Salah Ghamizi,Maxime Cordy,Yuejun Guo,Mike Papadakis,And Yves Le Traon |
発行日 | 2023-09-11 11:05:34+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google