Efficiently Escaping Saddle Points under Generalized Smoothness via Self-Bounding Regularity

要約

この論文では、一次方法を使用して必ずしもスムーズではない機能に関する非凸最適化の問題を研究します。
滑らかさ(勾配および/またはヘシアンがリプシッツである機能)は、理論と実践の両方における多くの機械学習の問題によって満たされず、適切な滑らかさの一般化の下で一次法の一次の定常点を一定の順序で調べる最近の作業を動機付けます。
私たちは、文献よりも一般的な滑らかさの仮定の下で、一般化された滑らかさの下で、一次メソッドと\ textIT {second}順序の固定点への収束を研究するための新しいフレームワークを開発します。
フレームワークを使用して、GDとSGDの適切なバリエーション(適切な摂動など)を示します。一次だけでなく、次元のランタイムポリロガリズムで\ textit {2次固定点}も収束できます。
私たちの知る限り、私たちの仕事には、最初のそのような結果と、一般化された滑らかさの下での非凸最適化のための最初の「非テキストブック」レートが含まれています。
いくつかの標準的な非凸最適化問題が私たちの設定とフレームワークに該当することを実証します。

要約(オリジナル)

In this paper, we study the problem of non-convex optimization on functions that are not necessarily smooth using first order methods. Smoothness (functions whose gradient and/or Hessian are Lipschitz) is not satisfied by many machine learning problems in both theory and practice, motivating a recent line of work studying the convergence of first order methods to first order stationary points under appropriate generalizations of smoothness. We develop a novel framework to study convergence of first order methods to first and \textit{second} order stationary points under generalized smoothness, under more general smoothness assumptions than the literature. Using our framework, we show appropriate variants of GD and SGD (e.g. with appropriate perturbations) can converge not just to first order but also \textit{second order stationary points} in runtime polylogarithmic in the dimension. To our knowledge, our work contains the first such result, as well as the first ‘non-textbook’ rate for non-convex optimization under generalized smoothness. We demonstrate that several canonical non-convex optimization problems fall under our setting and framework.

arxiv情報

著者 Daniel Yiming Cao,August Y. Chen,Karthik Sridharan,Benjamin Tang
発行日 2025-03-06 18:57:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC パーマリンク