Towards Inferential Reproducibility of Machine Learning Research

要約

機械学習の評価の信頼性、つまり複製されたモデル トレーニングの実行全体で観察された評価スコアの一貫性は、測定ノイズとみなされるいくつかの非決定性の原因によって影響されます。
研究結果の再現性を強制するためにノイズを除去する現在の傾向は、実装レベルでの固有の非決定性を無視し、アルゴリズムのノイズ要因とデータ特性の間の重要な相互作用効果を無視しています。
これにより、そのような実験から導き出される結論の範囲が制限されます。
ノイズを除去する代わりに、訓練されたモデルの特定のインスタンスを超えた推論を引き出すことを目的として、データプロパティとの相互作用を含むいくつかの分散源を機械学習評価の重要性と信頼性の分析に組み込むことを提案します。
線形混合効果モデル (LMEM) を使用してパフォーマンス評価スコアを分析し、一般化尤度比検定 (GLRT) を使用して統計的推論を実行する方法を示します。
これにより、メタパラメータの変動などの任意のノイズ源を統計的有意性テストに組み込み、データのプロパティを条件としたパフォーマンスの違いを評価することができます。
さらに、分散成分分析 (VCA) により、全体の分散に対するノイズ源の寄与を分析したり、全体の分散に対する実質的な分散の比率によって信頼性係数を計算したりすることができます。

要約(オリジナル)

Reliability of machine learning evaluation — the consistency of observed evaluation scores across replicated model training runs — is affected by several sources of nondeterminism which can be regarded as measurement noise. Current tendencies to remove noise in order to enforce reproducibility of research results neglect inherent nondeterminism at the implementation level and disregard crucial interaction effects between algorithmic noise factors and data properties. This limits the scope of conclusions that can be drawn from such experiments. Instead of removing noise, we propose to incorporate several sources of variance, including their interaction with data properties, into an analysis of significance and reliability of machine learning evaluation, with the aim to draw inferences beyond particular instances of trained models. We show how to use linear mixed effects models (LMEMs) to analyze performance evaluation scores, and to conduct statistical inference with a generalized likelihood ratio test (GLRT). This allows us to incorporate arbitrary sources of noise like meta-parameter variations into statistical significance testing, and to assess performance differences conditional on data properties. Furthermore, a variance component analysis (VCA) enables the analysis of the contribution of noise sources to overall variance and the computation of a reliability coefficient by the ratio of substantial to total variance.

arxiv情報

著者 Michael Hagmann,Philipp Meier,Stefan Riezler
発行日 2023-10-05 14:19:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, stat.AP, stat.ML パーマリンク