Revisiting Convergence of AdaGrad with Relaxed Assumptions

要約

この研究では、非凸の滑らかな最適化問題におけるモメンタムを伴う AdaGrad の収束 (特殊なケースとして AdaGrad をカバー) を再検討します。
ノイズの大きさが関数値のギャップと勾配の大きさによって制御される一般的なノイズ モデルを検討します。
このモデルは、有界ノイズ、サブガウス ノイズ、アフィン分散ノイズ、および予想される滑らかさを含む広範囲のノイズを網羅しており、多くの実際のアプリケーションでより現実的であることが示されています。
私たちの分析により、一般的なノイズの下で (\tilde{\mathcal{O}}(1/\sqrt{T})) に達する確率的な収束率が得られます。
このレートは、問題パラメータの事前知識に依存せず、ノイズ パラメータが関数に関連する場合、(\tilde{\mathcal{O}}(1/T)) まで加速する可能性があります。ここで (T) は総反復回数を示します。
値のギャップとノイズレベルが十分に小さいこと。
したがって、収束率は、対数項までの非凸の滑らかなランドスケープにわたる確率的一次法のより低い率と一致します [Arjevani et al., 2023]。
さらに、局所的な滑らかさが勾配ノルムの一次関数によって制御される一般化された滑らかさを考慮して、運動量を伴う AdaGrad の収束限界を導出します。

要約(オリジナル)

In this study, we revisit the convergence of AdaGrad with momentum (covering AdaGrad as a special case) on non-convex smooth optimization problems. We consider a general noise model where the noise magnitude is controlled by the function value gap together with the gradient magnitude. This model encompasses a broad range of noises including bounded noise, sub-Gaussian noise, affine variance noise and the expected smoothness, and it has been shown to be more realistic in many practical applications. Our analysis yields a probabilistic convergence rate which, under the general noise, could reach at (\tilde{\mathcal{O}}(1/\sqrt{T})). This rate does not rely on prior knowledge of problem-parameters and could accelerate to (\tilde{\mathcal{O}}(1/T)) where (T) denotes the total number iterations, when the noise parameters related to the function value gap and noise level are sufficiently small. The convergence rate thus matches the lower rate for stochastic first-order methods over non-convex smooth landscape up to logarithm terms [Arjevani et al., 2023]. We further derive a convergence bound for AdaGrad with mometum, considering the generalized smoothness where the local smoothness is controlled by a first-order function of the gradient norm.

arxiv情報

著者 Yusu Hong,Junhong Lin
発行日 2024-09-13 13:28:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC, stat.ML パーマリンク