Dynamics of Finite Width Kernel and Prediction Fluctuations in Mean Field Neural Networks

要約

タイトル: 平均場ニューラルネットワークの有限幅カーネルダイナミクスと予測変動の解析

要約:
– 広くて有限の特徴学習ニューラルネットワークにおいて、有限幅効果のダイナミクスを分析する。
– 従来の多くの分析には扰動論に基づくものがあるが、本研究の結果は幅に対しては摂動的だが、特徴学習の強度に対しては非摂動的である。
– 無限幅深層ニューラルネットワークカーネルと予測ダイナミクスのダイナミック平均場理論(DMFT)に出発して、ネットワークの重みのランダム初期化によるDMFTオーダーパラメーターの$\mathcal{O}(1/\sqrt{\text{width}})$の変動を表現する。
– ネットワークのトレーニングの遅延リミットでは、すべてのカーネルはランダムだが時間的に静的であり、予測分散は普遍的な形式を取る。しかし、裕福な特徴学習領域では、カーネルと予測分散の変動は動的に結合され、自己整合的に計算できる分散を持つ。
– 2層ネットワークでは、特徴学習が最終NTKおよび最終ネットワーク予測の分散をダイナミックに減少させる方法を示す。広くて有限なネットワークのオンライン学習を遅くするランダム初期化分散の影響も示す。
– より深いネットワークでは、大きな特徴学習強度において、カーネル分散は後続層を通じて劇的に蓄積されるが、特徴学習は引き続き特徴カーネルのSNRを改善する。
– 離散時間においては、学習率が大きいといった現象は無限幅ダイナミクスでよく捕捉され、初期化分散は動的に減少することが示される。
– CIFAR-10でトレーニングされたCNNにおいて有限幅によるネットワークダイナミクスのバイアスおよび分散の収集が示される。

要約(オリジナル)

We analyze the dynamics of finite width effects in wide but finite feature learning neural networks. Unlike many prior analyses, our results, while perturbative in width, are non-perturbative in the strength of feature learning. Starting from a dynamical mean field theory (DMFT) description of infinite width deep neural network kernel and prediction dynamics, we provide a characterization of the $\mathcal{O}(1/\sqrt{\text{width}})$ fluctuations of the DMFT order parameters over random initialization of the network weights. In the lazy limit of network training, all kernels are random but static in time and the prediction variance has a universal form. However, in the rich, feature learning regime, the fluctuations of the kernels and predictions are dynamically coupled with variance that can be computed self-consistently. In two layer networks, we show how feature learning can dynamically reduce the variance of the final NTK and final network predictions. We also show how initialization variance can slow down online learning in wide but finite networks. In deeper networks, kernel variance can dramatically accumulate through subsequent layers at large feature learning strengths, but feature learning continues to improve the SNR of the feature kernels. In discrete time, we demonstrate that large learning rate phenomena such as edge of stability effects can be well captured by infinite width dynamics and that initialization variance can decrease dynamically. For CNNs trained on CIFAR-10, we empirically find significant corrections to both the bias and variance of network dynamics due to finite width.

arxiv情報

著者 Blake Bordelon,Cengiz Pehlevan
発行日 2023-04-06 23:11:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cond-mat.dis-nn, cs.LG, stat.ML パーマリンク