Demystifying the Myths and Legends of Nonconvex Convergence of SGD


確率的勾配降下法 (SGD) とそのバリアントは、非凸目的関数を使用した大規模な最適化問題を解決するための主力製品です。
(強い)凸の場合の SGD の収束はよく理解されていますが、非凸関数の収束は弱い数学的基礎に基づいています。
SGD の非凸収束に関する既存の研究のほとんどは、反復範囲全体を検索することによって、予想される勾配ノルムの最小値または関数の準最適性ギャップ (追加の構造特性を持つ関数の場合) に基づく複雑さの結果を示しています。
したがって、SGD の最後の反復では、必ずしも同じ複雑さの保証が維持されるわけではありません。
この論文は、$\epsilon$ 定常点が反復範囲全体のどこにでも存在するのではなく、十分に大きい合計反復予算 $T$ が与えられた場合に、SGD の最後の反復に存在することを示しています。これは、既存の反復よりもはるかに強力な結果です。
さらに、私たちの解析により、SGD の最後の反復における $\epsilon$ 定常点の密度を測定することができ、古典的な $O(\frac{1}{\sqrt{T}})$ の漸近率を回復できます
分析の結果、SGD の非凸収束に関連する特定の神話や伝説に対処し、研究に新たな方向性を設定する可能性のあるいくつかの示唆に富む質問を提起しました。


Stochastic gradient descent (SGD) and its variants are the main workhorses for solving large-scale optimization problems with nonconvex objective functions. Although the convergence of SGDs in the (strongly) convex case is well-understood, their convergence for nonconvex functions stands on weak mathematical foundations. Most existing studies on the nonconvex convergence of SGD show the complexity results based on either the minimum of the expected gradient norm or the functional sub-optimality gap (for functions with extra structural property) by searching the entire range of iterates. Hence the last iterations of SGDs do not necessarily maintain the same complexity guarantee. This paper shows that an $\epsilon$-stationary point exists in the final iterates of SGDs, given a large enough total iteration budget, $T$, not just anywhere in the entire range of iterates — a much stronger result than the existing one. Additionally, our analyses allow us to measure the density of the $\epsilon$-stationary points in the final iterates of SGD, and we recover the classical $O(\frac{1}{\sqrt{T}})$ asymptotic rate under various existing assumptions on the objective function and the bounds on the stochastic gradient. As a result of our analyses, we addressed certain myths and legends related to the nonconvex convergence of SGD and posed some thought-provoking questions that could set new directions for research.


著者 Aritra Dutta,El Houcine Bergou,Soumia Boucherouite,Nicklas Werge,Melih Kandemir,Xin Li
発行日 2023-10-19 17:58:59+00:00
arxivサイト arxiv_id(pdf)

カテゴリー: cs.LG, cs.NA, math.NA, math.OC パーマリンク