RandALO: Out-of-sample risk estimation in no time flat

要約

大規模な高次元データセットでトレーニングされたモデルのサンプル外のリスクを推定することは、機械学習プロセスの高価で不可欠な部分であり、実践者がハイパーパラメーターを最適に調整できるようにします。
相互検証(CV)は、リスク推定の事実上の基準として機能しますが、計算コスト(休暇1-out CV)に対して高バイアス($ k $ fold CV)との取引は不十分です。
高次元でのリスクの一貫した推定器であるだけでなく、$ k $ -fold CVよりも計算上の少ないリスクの一貫した推定量であるランダム化の近似休暇(Randalo)リスク推定器を提案します。
合成データと実際のデータに関する広範なシミュレーションで主張をサポートし、Randaloおよびhttps://github.com/cvxgrp/randaloとしてPypiで利用可能なRandaloを実装するユーザーフレンドリーなPythonパッケージを提供します。

要約(オリジナル)

Estimating out-of-sample risk for models trained on large high-dimensional datasets is an expensive but essential part of the machine learning process, enabling practitioners to optimally tune hyperparameters. Cross-validation (CV) serves as the de facto standard for risk estimation but poorly trades off high bias ($K$-fold CV) for computational cost (leave-one-out CV). We propose a randomized approximate leave-one-out (RandALO) risk estimator that is not only a consistent estimator of risk in high dimensions but also less computationally expensive than $K$-fold CV. We support our claims with extensive simulations on synthetic and real data and provide a user-friendly Python package implementing RandALO available on PyPI as randalo and at https://github.com/cvxgrp/randalo.

arxiv情報

著者 Parth Nobel,Daniel LeJeune,Emmanuel J. Candès
発行日 2025-04-25 16:33:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC, math.ST, stat.CO, stat.ML, stat.TH パーマリンク