A finite sample analysis of the benign overfitting phenomenon for ridge function estimation

要約

高スケール機械学習における最近の大規模な数値実験により、モデル内のサンプル サイズとパラメーター数の比率の関数として、まったく直観に反した相転移が明らかになりました。
パラメータの数 $p$ がサンプル サイズ $n$ に近づくと、一般化誤差は増加しますが、驚くべきことに、しきい値 $p=n$ を超えると再び減少し始めます。
\cite{belkin2019reconciling} で理論コミュニティの注目を集めたこの現象は、最近徹底的に調査されており、特にディープ ニューラル ネットワークよりも単純なモデル、たとえばパラメーターが最小標準解であるとみなされる線形モデルなどについて徹底的に調査されています。
最小二乗問題、最初は $p$ と $n$ が無限大になる傾向があるときの漸近領域で。
\cite{hastie2019surprises}、そして最近では有限次元領域、より具体的には線形モデルの \cite{bartlett2020benign}、\cite{tsigler2020benign}、\cite{lecue2022geometrical} についてです。
本論文では、\textit{ridge} タイプの非線形モデルの有限標本解析を提案します。そこでは、\textit{推定問題} と
\textit{予測}の問題。
私たちの結果は、真のパラメータから最良の推定量までの距離の正確な分析と、\cite{bartlett2020benign} と \cite{chinot2020benign} の最近の研究を補完する一般化限界を提供します。
私たちの分析は、連続ニュートン法 \cite{neuberger2007continuous} と密接に関連したツールと、最小 $\ell_2$-norm 解の予測におけるパフォーマンスの洗練された定量分析に基づいています。

要約(オリジナル)

Recent extensive numerical experiments in high scale machine learning have allowed to uncover a quite counterintuitive phase transition, as a function of the ratio between the sample size and the number of parameters in the model. As the number of parameters $p$ approaches the sample size $n$, the generalisation error increases, but surprisingly, it starts decreasing again past the threshold $p=n$. This phenomenon, brought to the theoretical community attention in \cite{belkin2019reconciling}, has been thoroughly investigated lately, more specifically for simpler models than deep neural networks, such as the linear model when the parameter is taken to be the minimum norm solution to the least-squares problem, firstly in the asymptotic regime when $p$ and $n$ tend to infinity, see e.g. \cite{hastie2019surprises}, and recently in the finite dimensional regime and more specifically for linear models \cite{bartlett2020benign}, \cite{tsigler2020benign}, \cite{lecue2022geometrical}. In the present paper, we propose a finite sample analysis of non-linear models of \textit{ridge} type, where we investigate the \textit{overparametrised regime} of the double descent phenomenon for both the \textit{estimation problem} and the \textit{prediction} problem. Our results provide a precise analysis of the distance of the best estimator from the true parameter as well as a generalisation bound which complements recent works of \cite{bartlett2020benign} and \cite{chinot2020benign}. Our analysis is based on tools closely related to the continuous Newton method \cite{neuberger2007continuous} and a refined quantitative analysis of the performance in prediction of the minimum $\ell_2$-norm solution.

arxiv情報

著者 Emmanuel Caron,Stephane Chretien
発行日 2024-01-12 18:04:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク