On the Convergence of Gradient Descent for Large Learning Rates

要約

現在、勾配降下とその派生手法の収束保証に関する膨大な文献が存在する。しかし、単純な実用的な状況は未解明のままである:固定ステップサイズを使用する場合、勾配降下はどのような初期化からでも収束すると期待できるだろうか?我々は、ステップサイズが大きくなりすぎると、どのような初期化であっても収束が不可能になることを示す、基本的な不可能性の結果を提供する。最適化の軌跡に沿って勾配ノルムの漸近値を見ると、ステップサイズが臨界値を超えると相転移することがわかります。このことは実務家により観察されているが、ヒューリスティックスを超える真のメカニズムは不明なままである。我々は、力学系理論の結果を用いて、二乗損失を持つ線形ニューラルネットワークの場合におけるこの証明を行っている。また、勾配のリプシッツ連続性のような強い仮定を必要とせずに、より一般的な損失に対する収束の不可能性を証明する。非線形ネットワークを用いた実験により、我々の発見を検証する。

要約(オリジナル)

A vast literature on convergence guarantees for gradient descent and derived methods exists at the moment. However, a simple practical situation remains unexplored: when a fixed step size is used, can we expect gradient descent to converge starting from any initialization? We provide fundamental impossibility results showing that convergence becomes impossible no matter the initialization if the step size gets too big. Looking at the asymptotic value of the gradient norm along the optimization trajectory, we see that there is a phase transition as the step size crosses a critical value. This has been observed by practitioners, yet the true mechanisms through which this happens remain unclear beyond heuristics. Using results from dynamical systems theory, we provide a proof of this in the case of linear neural networks with a squared loss. We also prove the impossibility of convergence for more general losses without requiring strong assumptions such as Lipschitz continuity for the gradient. We validate our findings through experiments with non-linear networks.

arxiv情報

著者 Alexandru Crăciun,Debarghya Ghoshdastidar
発行日 2024-09-03 14:09:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG パーマリンク