Can Stability be Detrimental? Better Generalization through Gradient Descent Instabilities

要約

勾配降下法最適化の従来の分析では、損失ヘシアンの最大固有値 (シャープネスと呼ばれることが多い) が臨界学習率しきい値を下回っている場合、トレーニングは「安定」し、トレーニング損失が単調に減少することが示されています。
しかし、最近の研究では、現代のディープ ニューラル ネットワークの大部分が、この安定した領域外で動作しているにもかかわらず、良好なパフォーマンスを達成していることが示唆されています。
この研究では、大きな学習率によって引き起こされるこのような不安定性が、モデルのパラメーターを損失状況のより平坦な領域に向けて移動させることを実証します。
私たちの重要な洞察は、これらの不安定性の間にヘッセ行列の固有ベクトルの方向が回転することに注目することにあります。
これにより、モデルは、平坦性などの一般化にとってより望ましい幾何学的特性を示す損失ランドスケープの領域を探索できるようになると推測されます。
これらの回転はネットワークの深さの結果であり、深さが 1 を超えるネットワークでは、パラメーターの不安定な増大によりヘッセ行列の主成分の回転が引き起こされ、不安定な方向から離れたパラメーター空間の探索が促進されることが証明されています。
私たちの実証研究では、安定性のしきい値を超えて動作する大きな学習率による勾配降下法における暗黙の正則化効果が明らかになりました。
これらが最新のベンチマーク データセットで優れた汎化パフォーマンスにつながることがわかりました。

要約(オリジナル)

Traditional analyses of gradient descent optimization show that, when the largest eigenvalue of the loss Hessian – often referred to as the sharpness – is below a critical learning-rate threshold, then training is ‘stable’ and training loss decreases monotonically. Recent studies, however, have suggested that the majority of modern deep neural networks achieve good performance despite operating outside this stable regime. In this work, we demonstrate that such instabilities, induced by large learning rates, move model parameters toward flatter regions of the loss landscape. Our crucial insight lies in noting that, during these instabilities, the orientation of the Hessian eigenvectors rotate. This, we conjecture, allows the model to explore regions of the loss landscape that display more desirable geometrical properties for generalization, such as flatness. These rotations are a consequence of network depth, and we prove that for any network with depth > 1, unstable growth in parameters cause rotations in the principal components of the Hessian, which promote exploration of the parameter space away from unstable directions. Our empirical studies reveal an implicit regularization effect in gradient descent with large learning rates operating beyond the stability threshold. We find these lead to excellent generalization performance on modern benchmark datasets.

arxiv情報

著者 Lawrence Wang,Stephen J. Roberts
発行日 2024-12-23 14:32:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク