要約
この研究では、確率的勾配降下法 (SGD) でトレーニングされたディープ ニューラル ネットワークの限界ダイナミクスを調査します。
以前に観察されたように、パフォーマンスが収束した後も長い間、ネットワークは異常拡散のプロセスによってパラメータ空間を移動し続けます。移動距離は、自明ではない指数による勾配更新の数のべき乗則として増加します。
この異常拡散を説明する、最適化のハイパーパラメーター、勾配ノイズの構造、トレーニング終了時のヘシアン行列の間の複雑な相互作用を明らかにします。
この理解を構築するために、まず、有限の学習率とバッチ サイズを使用して SGD の連続時間モデルを不足減衰ランジュバン方程式として導出します。
この方程式を線形回帰の設定で研究し、パラメータの位相空間ダイナミクスと初期化から定常までの瞬間速度の正確な解析式を導き出すことができます。
フォッカー・プランク方程式を使用して、これらのダイナミクスを駆動する重要な要素は元のトレーニング損失ではなく、速度を暗黙的に正規化する修正損失と、位相空間で振動を引き起こす確率電流の組み合わせであることを示します。
ImageNet でトレーニングされた ResNet-18 モデルのダイナミクスにおけるこの理論の定性的および定量的予測を特定します。
統計物理学のレンズを通して、SGD で訓練されたディープ ニューラル ネットワークの異常な制限ダイナミクスのメカニズムの起源を明らかにします。
要約(オリジナル)
In this work we explore the limiting dynamics of deep neural networks trained with stochastic gradient descent (SGD). As observed previously, long after performance has converged, networks continue to move through parameter space by a process of anomalous diffusion in which distance travelled grows as a power law in the number of gradient updates with a nontrivial exponent. We reveal an intricate interaction between the hyperparameters of optimization, the structure in the gradient noise, and the Hessian matrix at the end of training that explains this anomalous diffusion. To build this understanding, we first derive a continuous-time model for SGD with finite learning rates and batch sizes as an underdamped Langevin equation. We study this equation in the setting of linear regression, where we can derive exact, analytic expressions for the phase space dynamics of the parameters and their instantaneous velocities from initialization to stationarity. Using the Fokker-Planck equation, we show that the key ingredient driving these dynamics is not the original training loss, but rather the combination of a modified loss, which implicitly regularizes the velocity, and probability currents, which cause oscillations in phase space. We identify qualitative and quantitative predictions of this theory in the dynamics of a ResNet-18 model trained on ImageNet. Through the lens of statistical physics, we uncover a mechanistic origin for the anomalous limiting dynamics of deep neural networks trained with SGD.
arxiv情報
著者 | Daniel Kunin,Javier Sagastuy-Brena,Lauren Gillespie,Eshed Margalit,Hidenori Tanaka,Surya Ganguli,Daniel L. K. Yamins |
発行日 | 2023-12-28 17:48:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google