要約
深い学習最適化の最近の進歩により、大規模な学習率の下で2つの興味深い現象が明らかになりました:安定性(EOS)とプログレッシブシャープニング(PS)、挑戦的な古典勾配降下(GD)分析。
現在の研究アプローチは、ジェネラリストのフレームワークまたはミニマリストの例を使用して、これらの現象を説明する際に大きな制限に直面しています。
このペーパーは、2次元入力を備えた2層ネットワークを導入することにより、ミニマリストのアプローチを進めます。1つの次元は応答に関連し、もう1つの次元は無関係です。
このモデルを通じて、大規模な学習率の下での進行性のシャープ化と自己安定化の存在を厳密に証明し、GD軌道全体に沿ったトレーニングのダイナミクスとシャープネスの非症状分析を確立します。
さらに、ミニマリストとジェネラリストの分析の間の行儀の良い「安定したセット」の存在を調整し、勾配流溶液のシャープネスの分析を2次元入力シナリオに拡張することにより、ミニマリストの例を既存の作品に結び付けます。
これらの調査結果は、パラメーターと入力データ分布の両方の視点からのEOS現象に関する新しい洞察を提供し、深い学習実践におけるより効果的な最適化戦略を通知する可能性があります。
要約(オリジナル)
Recent advances in deep learning optimization have unveiled two intriguing phenomena under large learning rates: Edge of Stability (EoS) and Progressive Sharpening (PS), challenging classical Gradient Descent (GD) analyses. Current research approaches, using either generalist frameworks or minimalist examples, face significant limitations in explaining these phenomena. This paper advances the minimalist approach by introducing a two-layer network with a two-dimensional input, where one dimension is relevant to the response and the other is irrelevant. Through this model, we rigorously prove the existence of progressive sharpening and self-stabilization under large learning rates, and establish non-asymptotic analysis of the training dynamics and sharpness along the entire GD trajectory. Besides, we connect our minimalist example to existing works by reconciling the existence of a well-behaved “stable set’ between minimalist and generalist analyses, and extending the analysis of Gradient Flow Solution sharpness to our two-dimensional input scenario. These findings provide new insights into the EoS phenomenon from both parameter and input data distribution perspectives, potentially informing more effective optimization strategies in deep learning practice.
arxiv情報
著者 | Liming Liu,Zixuan Zhang,Simon Du,Tuo Zhao |
発行日 | 2025-03-04 17:35:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google