Is K-fold cross validation the best model selection method for Machine Learning?

要約

機械学習は、複雑なパターンをコンパクトに表現できる手法として、予測推論において大きな可能性を秘めています。
K 分割交差検証 (CV) は、機械学習の結果が偶然に生成される可能性を確認するための最も一般的なアプローチであり、多くの場合、従来の仮説検定を上回ります。
この改善では、パラメトリックな説明を持たない精度など、機械学習の分類から直接取得された尺度が使用されます。
機械学習パイプライン内で頻度主義的な分析にアプローチするには、順列テストまたはデータ パーティション (つまり、フォールド) からの単純な統計を追加して、信頼区間を推定できます。
残念ながら、パラメトリック テストもノンパラメトリック テストも、小さなサンプル サイズのデータ​​セットの分割と異種データ ソースからの学習に関する固有の問題を解決しません。
機械学習が学習パラメーターとフォールド全体のデータの分布に強く依存しているという事実は、過剰な誤検知とレプリケーションに関するよくある問題を再現しています。
この問題の原因は、サンプル サイズが小さい、予測変数の数が少ない、異種データ ソースなど、一般的な実験環境をシミュレートすることによって実証されます。
K 倍 CV と実際の誤差の上限 (K 倍 CUBV) に基づく新しい統計テストが構成されます。CV を使用した機械学習の不確実な予測は、集中度の評価を通じて \emph{最悪の場合} によって制限されます。
不平等。
おそらくほぼ正確な線形分類器のベイジアン上限と K 分割 CV を組み合わせて、経験的誤差を推定するために使用されます。
神経画像データセットのパフォーマンスは、これが効果を検出するための堅牢な基準であり、過剰な偽陽性を回避しながら機械学習から得られた精度値を検証することを示唆しています。

要約(オリジナル)

As a technique that can compactly represent complex patterns, machine learning has significant potential for predictive inference. K-fold cross-validation (CV) is the most common approach to ascertaining the likelihood that a machine learning outcome is generated by chance and frequently outperforms conventional hypothesis testing. This improvement uses measures directly obtained from machine learning classifications, such as accuracy, that do not have a parametric description. To approach a frequentist analysis within machine learning pipelines, a permutation test or simple statistics from data partitions (i.e. folds) can be added to estimate confidence intervals. Unfortunately, neither parametric nor non-parametric tests solve the inherent problems around partitioning small sample-size datasets and learning from heterogeneous data sources. The fact that machine learning strongly depends on the learning parameters and the distribution of data across folds recapitulates familiar difficulties around excess false positives and replication. The origins of this problem are demonstrated by simulating common experimental circumstances, including small sample sizes, low numbers of predictors, and heterogeneous data sources. A novel statistical test based on K-fold CV and the Upper Bound of the actual error (K-fold CUBV) is composed, where uncertain predictions of machine learning with CV are bounded by the \emph{worst case} through the evaluation of concentration inequalities. Probably Approximately Correct-Bayesian upper bounds for linear classifiers in combination with K-fold CV is used to estimate the empirical error. The performance with neuroimaging datasets suggests this is a robust criterion for detecting effects, validating accuracy values obtained from machine learning whilst avoiding excess false positives.

arxiv情報

著者 Juan M Gorriz,F Segovia,J Ramirez,A Ortiz,J. Suckling
発行日 2024-01-29 18:46:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, eess.IV, eess.SP, stat.ML パーマリンク