Optimal generalisation and learning transition in extensive-width shallow neural networks near interpolation

要約

幅$ k $と入力寸法$ d $が大きく比例している完全に訓練された2層ニューラルネットワークを使用した監視された学習の教師と学生のモデルを検討します。
サンプルサイズのレジーム$ n $スケーリング、つまり、トレーニング可能なパラメーター$ kd+k $の数とデータ$ n $の数が同等の補間のしきい値を使用して、サンプルサイズ$ n $スケーリングの任意の活性化関数について、ネットワークのベイズ最適化誤差を近似するための効果的な理論を提供します。
私たちの分析は、一般的な重量分布に取り組んでいます。
「普遍的な」フェーズを「専門化」フェーズから分離する不連続な位相遷移を明らかにします。
1つ目は、一般化エラーは重量分布とは無関係であり、サンプリングレート$ n/d^2 $でゆっくりと減衰し、生徒は教師の重量の非線形組み合わせのみを学習します。
後者では、エラーは重量分布依存性であり、教師ネットワークへの生徒のアラインメントにより、より速く減衰します。
したがって、補間近くの高度に予測されるソリューションの存在を発表しますが、実際のアルゴリズムでは見つけるのは潜在的には困難です。

要約(オリジナル)

We consider a teacher-student model of supervised learning with a fully-trained two-layer neural network whose width $k$ and input dimension $d$ are large and proportional. We provide an effective theory for approximating the Bayes-optimal generalisation error of the network for any activation function in the regime of sample size $n$ scaling quadratically with the input dimension, i.e., around the interpolation threshold where the number of trainable parameters $kd+k$ and of data $n$ are comparable. Our analysis tackles generic weight distributions. We uncover a discontinuous phase transition separating a ‘universal’ phase from a ‘specialisation’ phase. In the first, the generalisation error is independent of the weight distribution and decays slowly with the sampling rate $n/d^2$, with the student learning only some non-linear combinations of the teacher weights. In the latter, the error is weight distribution-dependent and decays faster due to the alignment of the student towards the teacher network. We thus unveil the existence of a highly predictive solution near interpolation, which is however potentially hard to find by practical algorithms.

arxiv情報

著者 Jean Barbier,Francesco Camilli,Minh-Toan Nguyen,Mauro Pastore,Rudy Skerk
発行日 2025-04-01 16:32:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.dis-nn, cond-mat.stat-mech, cs.IT, cs.LG, math.IT, stat.ML パーマリンク