Bayes-optimal learning of an extensive-width neural network from quadratically many samples

要約

最初の層の後の二次活性化関数とランダムな重みを使用して、単一の隠れ層ニューラル ネットワークに対応するターゲット関数を学習する問題を考えます。
入力次元とネットワーク幅が比例して大きくなる漸近限界を考慮します。
最近の研究 [Cui & al ’23] は、利用可能なサンプルの数が次元内で線形のみである場合に、線形回帰がそのような関数を学習するためのベイズ最適検定誤差を提供することを確立しました。
この研究では、サンプル数が次元で 2 次である、より興味深い領域での最適なテスト誤差を理論的に分析するという未解決の課題を強調しました。
この論文では、二次活性化に関するこの課題を解決し、ベイズ最適検定誤差の閉形式式を導出します。
また、GAMP-RIE と呼ばれるアルゴリズムも提供します。これは、近似メッセージ パッシングと回転不変行列のノイズ除去を組み合わせ、漸近的に最適なパフォーマンスを達成します。
技術的には、私たちの結果は、拡張ランク行列の最適なノイズ除去および楕円体フィッティング問題に関する最近の研究とのリンクを確立することによって可能になります。
さらに、ノイズが存在しない場合、ランダムに初期化された勾配降下法は重みの空間をサンプリングしているように見え、トレーニング損失がゼロになり、初期化の平均化によりベイズ最適化と同等のテスト誤差が生じることを経験的に示します。

要約(オリジナル)

We consider the problem of learning a target function corresponding to a single hidden layer neural network, with a quadratic activation function after the first layer, and random weights. We consider the asymptotic limit where the input dimension and the network width are proportionally large. Recent work [Cui & al ’23] established that linear regression provides Bayes-optimal test error to learn such a function when the number of available samples is only linear in the dimension. That work stressed the open challenge of theoretically analyzing the optimal test error in the more interesting regime where the number of samples is quadratic in the dimension. In this paper, we solve this challenge for quadratic activations and derive a closed-form expression for the Bayes-optimal test error. We also provide an algorithm, that we call GAMP-RIE, which combines approximate message passing with rotationally invariant matrix denoising, and that asymptotically achieves the optimal performance. Technically, our result is enabled by establishing a link with recent works on optimal denoising of extensive-rank matrices and on the ellipsoid fitting problem. We further show empirically that, in the absence of noise, randomly-initialized gradient descent seems to sample the space of weights, leading to zero training loss, and averaging over initialization leads to a test error equal to the Bayes-optimal one.

arxiv情報

著者 Antoine Maillard,Emanuele Troiani,Simon Martin,Florent Krzakala,Lenka Zdeborová
発行日 2024-08-07 12:41:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.dis-nn, cs.IT, cs.LG, math.IT, math.PR, stat.ML パーマリンク