Convergence of SGD with momentum in the nonconvex case: A time window-based analysis


運動量を伴う確率的勾配降下法 (SGDM) は、大規模な確率的最適化問題を解決するための一般的なアプローチです。
SGDM の人気にもかかわらず、非凸シナリオにおける SGDM の収束動作はまだあまり理解されていません。
これらの課題に対処するために、従来の研究のように連続する反復の降下を調べるのではなく、特定の時間枠にわたる SGDM の動作を調査します。
このタイム ウィンドウ ベースのアプローチにより、収束解析が簡素化され、{\L}ojasiewicz プロパティの下で SGDM の反復収束結果を確立できるようになります。
さらに、基礎となる {\L}ojasiewicz 指数と利用されるステップ サイズ スキームに依存するローカル収束率を提供します。


The stochastic gradient descent method with momentum (SGDM) is a common approach for solving large-scale and stochastic optimization problems. Despite its popularity, the convergence behavior of SGDM remains less understood in nonconvex scenarios. This is primarily due to the absence of a sufficient descent property and challenges in simultaneously controlling the momentum and stochastic errors in an almost sure sense. To address these challenges, we investigate the behavior of SGDM over specific time windows, rather than examining the descent of consecutive iterates as in traditional studies. This time window-based approach simplifies the convergence analysis and enables us to establish the iterate convergence result for SGDM under the {\L}ojasiewicz property. We further provide local convergence rates which depend on the underlying {\L}ojasiewicz exponent and the utilized step size schemes.


著者 Junwen Qiu,Bohao Ma,Andre Milzarek
発行日 2024-12-27 13:23:03+00:00
arxivサイト arxiv_id(pdf)

カテゴリー: cs.LG, math.OC パーマリンク