Convergence of a Normal Map-based Prox-SGD Method under the KL Inequality



– 非凸複合型最適化問題における新しい確率的正規マップベースのアルゴリズムを提案し、その収束性質について説明する。
– 時間ウィンドウベースの戦略を使用して、アルゴリズムの収束性を分析し、生成された反復数列の各蓄積点が事実上確率的に、期待値的にに停止点に対応することが示される。
– 基本的なプロキシマル確率的勾配法の収束保証を拡張し、標準的な仮定の下で得られた結果は収束性に限定されていたものを拡張している。
– さらに、Kurdyka-{\L}ojasiewicz (KL)分析フレームワークに基づいて、反復数列に対して新しい点収束結果を提供し、KL指数およびステップサイズの動力学に依存する収束率を導出する。
– 生成されたパラメータの (ほぼ確実な) 速度は、$\alpha_k=\mathcal{O}(1/k^\gamma)$, $\gamma \in (\frac23,1]$とすると、 $\|\boldsymbol{x}^k-\boldsymbol{x}^*\| = \mathcal{O}(1/k^p)$, $p \in (0,\frac12)$の形式の速度が確立される。
– 結果は、$\mathsf{SGD}$の関連する収束率より速く、$\mathsf{norM}\text{-}\mathsf{SGD}$の非漸近的複雑性限界を改善する。


In this paper, we present a novel stochastic normal map-based algorithm ($\mathsf{norM}\text{-}\mathsf{SGD}$) for nonconvex composite-type optimization problems and discuss its convergence properties. Using a time window-based strategy, we first analyze the global convergence behavior of $\mathsf{norM}\text{-}\mathsf{SGD}$ and it is shown that every accumulation point of the generated sequence of iterates $\{\boldsymbol{x}^k\}_k$ corresponds to a stationary point almost surely and in an expectation sense. The obtained results hold under standard assumptions and extend the more limited convergence guarantees of the basic proximal stochastic gradient method. In addition, based on the well-known Kurdyka-{\L}ojasiewicz (KL) analysis framework, we provide novel point-wise convergence results for the iterates $\{\boldsymbol{x}^k\}_k$ and derive convergence rates that depend on the underlying KL exponent $\boldsymbol{\theta}$ and the step size dynamics $\{\alpha_k\}_k$. Specifically, for the popular step size scheme $\alpha_k=\mathcal{O}(1/k^\gamma)$, $\gamma \in (\frac23,1]$, (almost sure) rates of the form $\|\boldsymbol{x}^k-\boldsymbol{x}^*\| = \mathcal{O}(1/k^p)$, $p \in (0,\frac12)$, can be established. The obtained rates are faster than related and existing convergence rates for $\mathsf{SGD}$ and improve on the non-asymptotic complexity bounds for $\mathsf{norM}\text{-}\mathsf{SGD}$.


著者 Andre Milzarek,Junwen Qiu
発行日 2023-05-10 01:12:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, OpenAI

カテゴリー: 90C15, 90C26, cs.LG, math.OC パーマリンク