Evaluating machine learning models in non-standard settings: An overview and new findings

要約

機械学習モデルの一般化誤差 (GE) の推定は基本であり、リサンプリング手法が最も一般的なアプローチです。
ただし、非標準の設定、特に観測値が独立して同一に分布していない設定では、単純なランダムなデータ分割を使用したリサンプリングは偏った GE 推定値につながる可能性があります。
このペーパーは、クラスター化されたデータ、空間データ、不均等なサンプリング確率、コンセプトのドリフト、階層構造の結果など、さまざまな非標準設定における GE 推定のための根拠のあるガイドラインを提示することを目指しています。
私たちの概要は、確立された方法論と、私たちの知る限り、これらの特定の状況ではあまり考慮されていない他の既存の方法を組み合わせたものです。
これらの手法の統一原則は、リサンプリング手順の各反復で使用されるテスト データはモデルが適用される新しい観測値を反映する必要があり、トレーニング データは最終モデルを取得するために使用されるデータ セット全体を表す必要があるということです。

概要を提供するだけでなく、シミュレーション研究を実施することで文献のギャップに対処します。
これらの研究では、それぞれの設定に合わせた GE 推定方法を使用する必要性を評価しています。
私たちの調査結果は、標準的なリサンプリング手法では、非標準的な設定では偏った GE 推定値が生成されることが多いという懸念を裏付けており、調整された GE 推定値の重要性が強調されています。

要約(オリジナル)

Estimating the generalization error (GE) of machine learning models is fundamental, with resampling methods being the most common approach. However, in non-standard settings, particularly those where observations are not independently and identically distributed, resampling using simple random data divisions may lead to biased GE estimates. This paper strives to present well-grounded guidelines for GE estimation in various such non-standard settings: clustered data, spatial data, unequal sampling probabilities, concept drift, and hierarchically structured outcomes. Our overview combines well-established methodologies with other existing methods that, to our knowledge, have not been frequently considered in these particular settings. A unifying principle among these techniques is that the test data used in each iteration of the resampling procedure should reflect the new observations to which the model will be applied, while the training data should be representative of the entire data set used to obtain the final model. Beyond providing an overview, we address literature gaps by conducting simulation studies. These studies assess the necessity of using GE-estimation methods tailored to the respective setting. Our findings corroborate the concern that standard resampling methods often yield biased GE estimates in non-standard settings, underscoring the importance of tailored GE estimation.

arxiv情報

著者 Roman Hornung,Malte Nalenz,Lennart Schneider,Andreas Bender,Ludwig Bothmann,Bernd Bischl,Thomas Augustin,Anne-Laure Boulesteix
発行日 2023-10-23 17:15:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.AP, stat.CO, stat.ME, stat.ML パーマリンク