Asymptotics of feature learning in two-layer networks after one gradient-step

要約

この原稿では、単一の勾配降下ステップでトレーニングされた後、2 層ニューラル ネットワークがどのようにデータから特徴を学習し、カーネル領域を超えて改善するかという問題を調査します。
(Ba et al., 2022) からの非線形スパイク行列モデルとガウス普遍性に関する最近の進歩 (Dandi et al., 2023) のつながりを利用して、高次元における一般化誤差の正確な漸近的記述を提供します。
サンプル数 $n$、幅 $p$、入力次元 $d$ が比例して増加する制限。
ネットワークが勾配方向の非線形関数を効率的に学習するには、データへの適応がどのように重要であるかを正確に特徴付けます。初期化時には、この領域では線形関数しか表現できません。
私たちの知る限り、私たちの結果は、摂動的な有限幅を超えた、大きな学習率領域 $\eta=\Theta_{d}(d)$ における 2 層ニューラル ネットワークの一般化における特徴学習の影響を初めて厳密に説明したものです。
共役カーネルとニューラルタンジェントカーネルの修正。

要約(オリジナル)

In this manuscript we investigate the problem of how two-layer neural networks learn features from data, and improve over the kernel regime, after being trained with a single gradient descent step. Leveraging a connection from (Ba et al., 2022) with a non-linear spiked matrix model and recent progress on Gaussian universality (Dandi et al., 2023), we provide an exact asymptotic description of the generalization error in the high-dimensional limit where the number of samples $n$, the width $p$ and the input dimension $d$ grow at a proportional rate. We characterize exactly how adapting to the data is crucial for the network to efficiently learn non-linear functions in the direction of the gradient — where at initialization it can only express linear functions in this regime. To our knowledge, our results provides the first tight description of the impact of feature learning in the generalization of two-layer neural networks in the large learning rate regime $\eta=\Theta_{d}(d)$, beyond perturbative finite width corrections of the conjugate and neural tangent kernels.

arxiv情報

著者 Hugo Cui,Luca Pesce,Yatin Dandi,Florent Krzakala,Yue M. Lu,Lenka Zdeborová,Bruno Loureiro
発行日 2024-02-07 15:57:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.dis-nn, cs.LG, stat.ML パーマリンク