Toward Generalizable Machine Learning Models in Speech, Language, and Hearing Sciences: Estimating Sample Size and Reducing Overfitting

要約

この研究の最初の目的は、研究者が代わりにネストされた相互検証のより堅牢な方法を使用するように動機付ける定量的な証拠を提供することです。
2 番目の目的は、スタディの設計中に ML ベースの解析のための電力解析を実行するためのメソッドと MATLAB コードを提示することです。
モンテカルロ シミュレーションを使用して、使用した相互検証方法、特徴の識別力、特徴空間の次元数、およびモデルの次元間の相互作用を定量化しました。
ML モデルの統計検出力と統計的信頼度に基づいて、4 つの異なる相互検証 (単一ホールドアウト、10 分割、トレイン検証テスト、およびネストされた 10 分割) が比較されました。
帰無仮説と対立仮説の分布を使用して、統計的に有意な結果を得るために必要な最小サンプル サイズ ({\alpha}=0.05、1-\b{eta}=0.8) を決定しました。
モデルの統計的信頼度は、正しい特徴が選択され、最終モデルに含まれる確率として定義されました。
私たちの分析は、単一ホールドアウト法に基づいて生成されたモデルの統計検出力と統計的信頼度が非常に低く、精度を大幅に過大評価していることを示しました。
逆に、ネストされた 10 分割相互検証では、最も高い統計的信頼性と最も高い統計的検出力が得られ、同時に精度の不偏推定値が得られました。
単一のホールドアウトで必要なサンプル サイズは、ネストされた相互検証を使用した場合に必要なサンプル サイズより 50% 大きくなる可能性があります。
ネストされた相互検証に基づくモデルの信頼性は、単一のホールドアウト ベースのモデルの信頼性よりも 4 倍も高かった。
研究者が将来の研究を設計する際にサンプル サイズを見積もるのを支援するために、計算モデル、MATLAB コード、およびルックアップ テーブルが提供されています。

要約(オリジナル)

This study’s first purpose is to provide quantitative evidence that would incentivize researchers to instead use the more robust method of nested cross-validation. The second purpose is to present methods and MATLAB codes for doing power analysis for ML-based analysis during the design of a study. Monte Carlo simulations were used to quantify the interactions between the employed cross-validation method, the discriminative power of features, the dimensionality of the feature space, and the dimensionality of the model. Four different cross-validations (single holdout, 10-fold, train-validation-test, and nested 10-fold) were compared based on the statistical power and statistical confidence of the ML models. Distributions of the null and alternative hypotheses were used to determine the minimum required sample size for obtaining a statistically significant outcome ({\alpha}=0.05, 1-\b{eta}=0.8). Statistical confidence of the model was defined as the probability of correct features being selected and hence being included in the final model. Our analysis showed that the model generated based on the single holdout method had very low statistical power and statistical confidence and that it significantly overestimated the accuracy. Conversely, the nested 10-fold cross-validation resulted in the highest statistical confidence and the highest statistical power, while providing an unbiased estimate of the accuracy. The required sample size with a single holdout could be 50% higher than what would be needed if nested cross-validation were used. Confidence in the model based on nested cross-validation was as much as four times higher than the confidence in the single holdout-based model. A computational model, MATLAB codes, and lookup tables are provided to assist researchers with estimating the sample size during the design of their future studies.

arxiv情報

著者 Hamzeh Ghasemzadeh,Robert E. Hillman,Daryush D. Mehta
発行日 2023-12-22 17:14:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク