Analysis of Bootstrap and Subsampling in High-dimensional Regularized Regression

要約

我々は、サブサンプリング、ブートストラップ、ジャックナイフなど、統計モデルの不確実性を推定するための一般的なリサンプリング手法と、高次元教師付き回帰タスクにおけるそれらの性能を調査する。リッジ回帰やロジスティック回帰のような一般化線形モデルの文脈で、共変量のサンプル数$n$と次元$d$が同程度の固定速度$alpha==n/d$で成長する極限を取り、これらの方法によって推定される偏りと分散の厳密な漸近的記述を提供する。i) リサンプリング法は、高次元では問題が多く、このような状況に典型的な二重降順のような振る舞いを示す、ii) $alpha$が十分大きいときだけ、一貫した信頼できる誤差推定を提供する(収束率を与える)、iii) 現代の機械学習の実践に関連する過パラメトリック領域$alphapha!要約(オリジナル)

We investigate popular resampling methods for estimating the uncertainty of statistical models, such as subsampling, bootstrap and the jackknife, and their performance in high-dimensional supervised regression tasks. We provide a tight asymptotic description of the biases and variances estimated by these methods in the context of generalized linear models, such as ridge and logistic regression, taking the limit where the number of samples $n$ and dimension $d$ of the covariates grow at a comparable fixed rate $\alpha\!=\! n/d$. Our findings are three-fold: i) resampling methods are fraught with problems in high dimensions and exhibit the double-descent-like behavior typical of these situations; ii) only when $\alpha$ is large enough do they provide consistent and reliable error estimations (we give convergence rates); iii) in the over-parametrized regime $\alpha\!<\!1$ relevant to modern machine learning practice, their predictions are not consistent, even with optimal regularization.

arxiv情報

著者 Lucas Clarté,Adrien Vandenbroucque,Guillaume Dalle,Bruno Loureiro,Florent Krzakala,Lenka Zdeborová
発行日 2024-11-01 13:33:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cond-mat.dis-nn, cs.LG, stat.ML パーマリンク