Deep Linear Network Training Dynamics from Random Initialization: Data, Width, Depth, and Hyperparameter Transfer

要約

我々は、ランダムな初期化から大きな幅で訓練された深層線形ネットワークにおける勾配降下ダイナミクスと、大量のランダムデータに対する勾配降下ダイナミクスを理論的に特徴付ける。我々の理論は、平均場/最大更新パラメタライズドネットワークの「広い方が良い」効果とハイパーパラメータ伝達効果を捉えており、最適学習率がモデル幅と共に変化するニューラル接線パラメタライズドとは対照的である。非残留ニューラルネットワークと残留ニューラルネットワークの漸近的記述を提供し、後者は枝が$1/sqrt{text{depth}}$としてスケールされるとき、無限深度限界を可能にする。また、1パスの確率的勾配降下による学習と、各反復で学習データを繰り返した場合のダイナミクスを比較する。最後に、このモデルが、最近の研究で観測されたリッチな領域において、べき乗則構造化データに対する加速されたべき乗則学習ダイナミクスを回復することを示す。

要約(オリジナル)

We theoretically characterize gradient descent dynamics in deep linear networks trained at large width from random initialization and on large quantities of random data. Our theory captures the “wider is better’ effect of mean-field/maximum-update parameterized networks as well as hyperparameter transfer effects, which can be contrasted with the neural-tangent parameterization where optimal learning rates shift with model width. We provide asymptotic descriptions of both non-residual and residual neural networks, the latter of which enables an infinite depth limit when branches are scaled as $1/\sqrt{\text{depth}}$. We also compare training with one-pass stochastic gradient descent to the dynamics when training data are repeated at each iteration. Lastly, we show that this model recovers the accelerated power law training dynamics for power law structured data in the rich regime observed in recent works.

arxiv情報

著者 Blake Bordelon,Cengiz Pehlevan
発行日 2025-02-04 17:50:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cond-mat.dis-nn, cs.LG, stat.ML パーマリンク