Generalization error of spectral algorithms

要約

カーネル法の一般化を漸近的に正確に推定することは、ニューラル ネットワークとそれに関連するカーネル間の類似点により、最近注目を集めています。
ただし、従来の研究では、カーネル リッジ回帰 (KRR) によってトレーニングのそのような推定値が導出されていますが、ニューラル ネットワークは通常、勾配降下法 (GD) でトレーニングされます。
現在の研究では、プロファイル $h(\lambda)$ によって指定され、特殊なケースとして KRR と GD を含む $\textit{スペクトル アルゴリズム}$ のファミリーを使用したカーネルのトレーニングを検討します。
次に、高次元ガウスモデルと低次元並進不変モデルの 2 つのデータ モデルの学習プロファイル $h(\lambda)$ の関数として汎化誤差を導出します。
カーネルとターゲットのスペクトルに関するべき乗則の仮定の下で、フレームワークを使用して、(i) ノイズのある観測とノイズのない観測の両方に完全な損失の漸近線を与える (ii) 損失が特定のスペクトル スケールに局在することを示し、
KRR 飽和現象 (iii) の予想を作成し、考慮されたデータ モデルについて、損失に対する損失の普遍性を実証します。
問題の非スペクトルの詳細。ただし、ノイズの多い観測の場合に限ります。

要約(オリジナル)

The asymptotically precise estimation of the generalization of kernel methods has recently received attention due to the parallels between neural networks and their associated kernels. However, prior works derive such estimates for training by kernel ridge regression (KRR), whereas neural networks are typically trained with gradient descent (GD). In the present work, we consider the training of kernels with a family of $\textit{spectral algorithms}$ specified by profile $h(\lambda)$, and including KRR and GD as special cases. Then, we derive the generalization error as a functional of learning profile $h(\lambda)$ for two data models: high-dimensional Gaussian and low-dimensional translation-invariant model. Under power-law assumptions on the spectrum of the kernel and target, we use our framework to (i) give full loss asymptotics for both noisy and noiseless observations (ii) show that the loss localizes on certain spectral scales, giving a new perspective on the KRR saturation phenomenon (iii) conjecture, and demonstrate for the considered data models, the universality of the loss w.r.t. non-spectral details of the problem, but only in case of noisy observation.

arxiv情報

著者 Maksim Velikanov,Maxim Panov,Dmitry Yarotsky
発行日 2024-03-18 11:52:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク