On the Stability of Gradient Descent for Large Learning Rate

要約

現在、ニューラル ネットワークのトレーニングで観察される安定性エッジ (EoS) 現象を理解することに大きな関心が寄せられています。この現象は、エポックにわたる損失関数の非単調減少を特徴とし、損失の鋭さ (スペクトル ノルム) が特徴です。
ヘッセ行列) は徐々に 2/(学習率) 付近に近づき、安定します。
勾配降下法を使用したトレーニング時に EoS が存在する理由は、最近、勾配降下軌道付近に平坦な最小値が存在しないことと、コンパクトな前方不変セットの存在が原因であると提案されています。
この論文では、二次損失関数の下で最適化された線形ニューラル ネットワークが最初の仮定を満たし、さらに 2 番目の仮定の必要条件も満たすことを示します。
より正確には、勾配降下マップが非特異的であり、損失関数の大域最小化器のセットが滑らかな多様体を形成し、安定最小値がパラメータ空間内の有界サブセットを形成することを証明します。
さらに、ステップ サイズが大きすぎる場合、勾配降下法が臨界点に収束する一連の初期化の測定値がゼロになることも証明します。

要約(オリジナル)

There currently is a significant interest in understanding the Edge of Stability (EoS) phenomenon, which has been observed in neural networks training, characterized by a non-monotonic decrease of the loss function over epochs, while the sharpness of the loss (spectral norm of the Hessian) progressively approaches and stabilizes around 2/(learning rate). Reasons for the existence of EoS when training using gradient descent have recently been proposed — a lack of flat minima near the gradient descent trajectory together with the presence of compact forward-invariant sets. In this paper, we show that linear neural networks optimized under a quadratic loss function satisfy the first assumption and also a necessary condition for the second assumption. More precisely, we prove that the gradient descent map is non-singular, the set of global minimizers of the loss function forms a smooth manifold, and the stable minima form a bounded subset in parameter space. Additionally, we prove that if the step-size is too big, then the set of initializations from which gradient descent converges to a critical point has measure zero.

arxiv情報

著者 Alexandru Crăciun,Debarghya Ghoshdastidar
発行日 2024-02-20 16:01:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク