Phase diagram of training dynamics in deep neural networks: effect of learning rate, depth, and width

要約

確率的勾配降下法 (SGD) でトレーニングされたディープ ニューラル ネットワーク (DNN) の最適化ダイナミクスを長い時間スケールで体系的に分析し、ニューラル ネットワークの学習率、深さ、幅の影響を研究します。
損失のヘッセ行列の最大固有値 $\lambda^H_t$ を分析することにより、損失状況の鋭さの尺度であるダイナミクスが 4 つの異なるレジームを示すことができることがわかります。
ii) 中程度の飽和レジーム、(iii) 漸進的な先鋭化レジーム、そして最後に (iv) 後期の「安定の端」レジーム。
初期および中間レジーム (i) および (ii) は、学習率 $\eta \equiv c/\lambda^H_0$、深さ $d$、および幅 $w$ に応じて、豊富な相図を示します。
トレーニング損失と鋭さの初期ダイナミクスで質的に異なる現象を分離する $c$ のいくつかの重要な値を特定し、$d/w$ への依存性を抽出します。
私たちの結果は、学習の同じフェーズを維持するために、DNN の深さと幅で学習率をスケーリングする方法に影響を与えます。

要約(オリジナル)

We systematically analyze optimization dynamics in deep neural networks (DNNs) trained with stochastic gradient descent (SGD) over long time scales and study the effect of learning rate, depth, and width of the neural network. By analyzing the maximum eigenvalue $\lambda^H_t$ of the Hessian of the loss, which is a measure of sharpness of the loss landscape, we find that the dynamics can show four distinct regimes: (i) an early time transient regime, (ii) an intermediate saturation regime, (iii) a progressive sharpening regime, and finally (iv) a late time “edge of stability’ regime. The early and intermediate regimes (i) and (ii) exhibit a rich phase diagram depending on learning rate $\eta \equiv c/\lambda^H_0$, depth $d$, and width $w$. We identify several critical values of $c$ which separate qualitatively distinct phenomena in the early time dynamics of training loss and sharpness, and extract their dependence on $d/w$. Our results have implications for how to scale the learning rate with DNN depth and width in order to remain in the same phase of learning.

arxiv情報

著者 Dayal Singh Kalra,Maissam Barkeshli
発行日 2023-02-23 18:59:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.dis-nn, cs.LG パーマリンク