Phase diagram of early training dynamics in deep neural networks: effect of the learning rate, depth, and width

要約

私たちは、確率的勾配降下法 (SGD) で訓練されたディープ ニューラル ネットワーク (DNN) の最適化ダイナミクスを系統的に分析し、ニューラル ネットワークの学習率 $\eta$、深さ $d$、幅 $w$ の影響を研究します。
損失のヘッセ行列の最大固有値 $\lambda^H_t$ を分析することにより、損失の状況の鮮明さの尺度であるダイナミクスが 4 つの異なる領域を示すことができることがわかります。 (i) 初期の過渡領域、(
ii) 中間の飽和レジーム、(iii) 漸進的シャープ化レジーム、および (iv) 後期の「安定性のエッジ」レジーム。
初期および中間状態 (i) および (ii) は、$\eta \equiv c / \lambda_0^H $、$d$、および $w$ に応じて豊富な状態図を示します。
我々は、訓練の損失と鮮明さの初期のダイナミクスにおける質的に異なる現象を分離する $c$ のいくつかの臨界値を特定します。
特に、$d$ と $1/w$ が増加すると、初期の時点で鮮鋭度が低下する「鮮鋭度低下」フェーズが始まっていることがわかります。

要約(オリジナル)

We systematically analyze optimization dynamics in deep neural networks (DNNs) trained with stochastic gradient descent (SGD) and study the effect of learning rate $\eta$, depth $d$, and width $w$ of the neural network. By analyzing the maximum eigenvalue $\lambda^H_t$ of the Hessian of the loss, which is a measure of sharpness of the loss landscape, we find that the dynamics can show four distinct regimes: (i) an early time transient regime, (ii) an intermediate saturation regime, (iii) a progressive sharpening regime, and (iv) a late time “edge of stability’ regime. The early and intermediate regimes (i) and (ii) exhibit a rich phase diagram depending on $\eta \equiv c / \lambda_0^H $, $d$, and $w$. We identify several critical values of $c$, which separate qualitatively distinct phenomena in the early time dynamics of training loss and sharpness. Notably, we discover the opening up of a “sharpness reduction’ phase, where sharpness decreases at early times, as $d$ and $1/w$ are increased.

arxiv情報

著者 Dayal Singh Kalra,Maissam Barkeshli
発行日 2023-10-24 17:59:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.dis-nn, cs.LG パーマリンク