Universal Sharpness Dynamics in Neural Network Training: Fixed Point Analysis, Edge of Stability, and Route to Chaos

要約

ニューラルネットワークの勾配降下ダイナミクスにおいて、損失のヘシアンの上部の固有値(シャープネス)は、訓練を通して様々なロバストな現象を示す。これには、学習の初期にシャープネスが減少する(シャープネスの減少)初期領域と、漸進的シャープネスや安定性のエッジのような後期領域が含まれる。我々は、単一の訓練例で訓練された単純な$2$層線形ネットワーク(UVモデル)が、実世界のシナリオで観察される本質的なシャープネス現象の全てを示すことを示す。関数空間における動的固定点の構造と関数更新のベクトル場を解析することにより、これらの鋭さの傾向の背後にある根本的なメカニズムを明らかにする。我々の解析により、(i)早期の鋭さの低下と漸進的な鋭さの背後にあるメカニズム、(ii)安定性の端に必要な条件、(iii)学習率の増加に伴う安定性の端の多様体上のカオスへの周期倍増ルートが明らかになった。最後に、この単純化されたモデルからの様々な予測が現実のシナリオに一般化することを示し、その限界について議論する。

要約(オリジナル)

In gradient descent dynamics of neural networks, the top eigenvalue of the Hessian of the loss (sharpness) displays a variety of robust phenomena throughout training. This includes early time regimes where the sharpness may decrease during early periods of training (sharpness reduction), and later time behavior such as progressive sharpening and edge of stability. We demonstrate that a simple $2$-layer linear network (UV model) trained on a single training example exhibits all of the essential sharpness phenomenology observed in real-world scenarios. By analyzing the structure of dynamical fixed points in function space and the vector field of function updates, we uncover the underlying mechanisms behind these sharpness trends. Our analysis reveals (i) the mechanism behind early sharpness reduction and progressive sharpening, (ii) the required conditions for edge of stability, and (iii) a period-doubling route to chaos on the edge of stability manifold as learning rate is increased. Finally, we demonstrate that various predictions from this simplified model generalize to real-world scenarios and discuss its limitations.

arxiv情報

著者 Dayal Singh Kalra,Tianyu He,Maissam Barkeshli
発行日 2023-11-03 17:59:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cond-mat.dis-nn, cs.LG, nlin.CD, stat.ML パーマリンク