Complexity Lower Bounds of Adaptive Gradient Algorithms for Non-convex Stochastic Optimization under Relaxed Smoothness

要約

非凸確率的最適化の最近の結果は、$(l_0、l_1)$ – 滑らかさ条件の下での一般的な適応アルゴリズム(例えば、adagrad)の収束を示していますが、収束速度は平滑性定数のような問題パラメーターの点で高次の多項式です。
このようなアルゴリズムによって保証された複雑さは、$ \ epsilon $–stationaryポイントを見つけるために$ \ theta \ left(\ delta l \ sigma^2 \ epsilon^{-4} \ right)の最適な複雑さよりも大幅に大きくなる可能性があります。
$ \ sigma^2 $は、確率勾配の分散です。
ただし、現在、これらの高次依存関係を引き締めることができるかどうかは現在不明です。
この質問に答えるために、問題パラメーター$ \ delta、l_0、l_1 $の観点から、$(L_0、l_1)$ – $(l_0、l_1)$のいくつかの適応最適化アルゴリズムの複雑さの下限を調査します。
Adagradの3つのバリエーションの複雑さを提供します。これは、少なくとも問題パラメーター$ \ Delta、L_0、L_1 $に少なくとも二次依存性を示しています。
特に、Adagrad-normの脱線化されたバリアントには、少なくとも$ \ omega \左(\ delta^2 l_1^2 \ sigma^2 \ epsilon^{-4} \ right)が必要であることを示します。
また、幅広いクラスの適応階段化を備えたSGD向けの下限を提供します。
我々の結果は、特定の適応アルゴリズムについて、$(L_0、L_1)$ – スムーズな設定は、初期の最適性ギャップと滑らかさ定数の観点から、標準の滑らかな設定よりも根本的に困難であることを示しています。

要約(オリジナル)

Recent results in non-convex stochastic optimization demonstrate the convergence of popular adaptive algorithms (e.g., AdaGrad) under the $(L_0, L_1)$-smoothness condition, but the rate of convergence is a higher-order polynomial in terms of problem parameters like the smoothness constants. The complexity guaranteed by such algorithms to find an $\epsilon$-stationary point may be significantly larger than the optimal complexity of $\Theta \left( \Delta L \sigma^2 \epsilon^{-4} \right)$ achieved by SGD in the $L$-smooth setting, where $\Delta$ is the initial optimality gap, $\sigma^2$ is the variance of stochastic gradient. However, it is currently not known whether these higher-order dependencies can be tightened. To answer this question, we investigate complexity lower bounds for several adaptive optimization algorithms in the $(L_0, L_1)$-smooth setting, with a focus on the dependence in terms of problem parameters $\Delta, L_0, L_1$. We provide complexity bounds for three variations of AdaGrad, which show at least a quadratic dependence on problem parameters $\Delta, L_0, L_1$. Notably, we show that the decorrelated variant of AdaGrad-Norm requires at least $\Omega \left( \Delta^2 L_1^2 \sigma^2 \epsilon^{-4} \right)$ stochastic gradient queries to find an $\epsilon$-stationary point. We also provide a lower bound for SGD with a broad class of adaptive stepsizes. Our results show that, for certain adaptive algorithms, the $(L_0, L_1)$-smooth setting is fundamentally more difficult than the standard smooth setting, in terms of the initial optimality gap and the smoothness constants.

arxiv情報

著者 Michael Crawshaw,Mingrui Liu
発行日 2025-05-07 17:40:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク