Beyond the Edge of Stability via Two-step Gradient Updates

要約

勾配降下法 (GD) は、高次元空間でのスケーラビリティと効率性により、現代の機械学習の強力な主力製品です。
局所的最小値を見つける能力は、リプシッツ勾配での損失に対してのみ保証されており、基礎となる勾配流の「本物の」離散化と見なすことができます。
しかし、過剰パラメータ化されたモデルを含む多くの ML セットアップは、この問題クラスには当てはまりません。そのため、ステップサイズがリプシッツに反比例して許容しきい値を超える、いわゆる「安定性のエッジ」(EoS) を超える研究が動機付けられています。
上記の定数。
おそらく驚くべきことに、GD は、局所的な不安定性や振動挙動に関係なく、依然として収束することが経験的に観察されています。
この現象の初期の理論分析は、主にオーバーパラメータ化領​​域に焦点を当てています。この領域では、大きな学習率を選択した効果が、適切な漸近限界の下で、ミニマイザーの多様体内の「シャープネス最小化」暗黙の正則化に関連付けられている可能性があります。
対照的に、この研究では、単純だが代表的な学習問題に焦点を当て、2 段階の勾配更新の分析を通じて、そのような不安定な収束の条件を直接調べます。
具体的には、2 段階更新の固定点の存在と収束を保証する 3 次導関数を含む局所条件を特徴付け、人口損失の下で教師と生徒の設定でそのような特性を活用します。
最後に、行列分解から始めて、より一般的な設定の探索とともに、そのダイナミクスの直観を伴う高次元設定での GD の周期 2 軌道の観察を提供します。

要約(オリジナル)

Gradient Descent (GD) is a powerful workhorse of modern machine learning thanks to its scalability and efficiency in high-dimensional spaces. Its ability to find local minimisers is only guaranteed for losses with Lipschitz gradients, where it can be seen as a `bona-fide’ discretisation of an underlying gradient flow. Yet, many ML setups involving overparametrised models do not fall into this problem class, which has motivated research beyond the so-called “Edge of Stability” (EoS), where the step-size crosses the admissibility threshold inversely proportional to the Lipschitz constant above. Perhaps surprisingly, GD has been empirically observed to still converge regardless of local instability and oscillatory behavior. The incipient theoretical analysis of this phenomena has mainly focused in the overparametrised regime, where the effect of choosing a large learning rate may be associated to a `Sharpness-Minimisation’ implicit regularisation within the manifold of minimisers, under appropriate asymptotic limits. In contrast, in this work we directly examine the conditions for such unstable convergence, focusing on simple, yet representative, learning problems, via analysis of two-step gradient updates. Specifically, we characterize a local condition involving third-order derivatives that guarantees existence and convergence to fixed points of the two-step updates, and leverage such property in a teacher-student setting, under population loss. Finally, starting from Matrix Factorization, we provide observations of period-2 orbit of GD in high-dimensional settings with intuition of its dynamics, along with exploration into more general settings.

arxiv情報

著者 Lei Chen,Joan Bruna
発行日 2023-07-26 10:48:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC, stat.ML パーマリンク