Convergence of SGD with momentum in the nonconvex case: A time window-based analysis

要約

運動量を伴う確率的勾配降下法 (SGDM) は、大規模な確率的最適化問題を解決するための一般的なアプローチです。
SGDM の人気にもかかわらず、非凸シナリオにおける SGDM の収束動作はまだあまり理解されていません。
これは主に、十分な降下特性が存在しないことと、ほぼ確実な意味で運動量と確率的誤差を同時に制御することが難しいためです。
これらの課題に対処するために、従来の研究のように連続する反復の降下を調べるのではなく、特定の時間枠にわたる SGDM の動作を調査します。
このタイム ウィンドウ ベースのアプローチにより、収束解析が簡素化され、{\L}ojasiewicz プロパティの下で SGDM の反復収束結果を確立できるようになります。
さらに、基礎となる {\L}ojasiewicz 指数と利用されるステップ サイズ スキームに依存するローカル収束率を提供します。

要約(オリジナル)

The stochastic gradient descent method with momentum (SGDM) is a common approach for solving large-scale and stochastic optimization problems. Despite its popularity, the convergence behavior of SGDM remains less understood in nonconvex scenarios. This is primarily due to the absence of a sufficient descent property and challenges in simultaneously controlling the momentum and stochastic errors in an almost sure sense. To address these challenges, we investigate the behavior of SGDM over specific time windows, rather than examining the descent of consecutive iterates as in traditional studies. This time window-based approach simplifies the convergence analysis and enables us to establish the iterate convergence result for SGDM under the {\L}ojasiewicz property. We further provide local convergence rates which depend on the underlying {\L}ojasiewicz exponent and the utilized step size schemes.

arxiv情報

著者 Junwen Qiu,Bohao Ma,Andre Milzarek
発行日 2024-12-27 13:23:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC パーマリンク