Practical Sharpness-Aware Minimization Cannot Converge All the Way to Optima

要約

Sharpness-Aware Minimization (SAM) は、摂動 $y_t = x_t + \rho \frac{\nabla f(x_t)}{\lVert \nabla f(x_t) \rVert での勾配に基づいて下降ステップを実行するオプティマイザーです。
現在のポイント $x_t$ の }$。
既存の研究は、滑らかな関数に対する SAM の収束を証明していますが、実際とはかけ離れた、減衰する摂動サイズ $\rho$ および/または $y_t$ の勾配正規化を仮定しないことによってその収束を証明しています。
このギャップに対処するために、実際的な構成 (つまり、定数 $\rho$ と $y_t$ の勾配正規化) を備えた SAM の決定論的/確率論的バージョンを研究し、(非)凸性の仮定を持つ滑らかな関数での収束特性を調査します。
おそらく驚くべきことに、多くのシナリオで、SAM が大域最小値または静止点に収束する能力が限られていることがわかります。
滑らかな強凸関数の場合、決定論的 SAM は $\tilde \Theta(\frac{1}{T^2})$ という厳しいグローバル収束率を享受する一方で、確率的 SAM の収束限界には不可避の加法項 $O が発生することを示します。
(\rho^2)$、最適値の近傍までのみ収束することを示します。
実際、そのような $O(\rho^2)$ 要因は、我々が検討するすべての設定における確率的 SAM に対して発生し、非凸の場合の決定論的 SAM に対しても発生します。
重要なのは、そのような条件が避けられないことを例によって証明していることです。
私たちの結果は、減衰摂動サイズまたは勾配正規化を使用した場合と使用しない場合の SAM の大きく異なる特性を強調しており、一方のバージョンから得られた直感が他方のバージョンには当てはまらない可能性があることを示唆しています。

要約(オリジナル)

Sharpness-Aware Minimization (SAM) is an optimizer that takes a descent step based on the gradient at a perturbation $y_t = x_t + \rho \frac{\nabla f(x_t)}{\lVert \nabla f(x_t) \rVert}$ of the current point $x_t$. Existing studies prove convergence of SAM for smooth functions, but they do so by assuming decaying perturbation size $\rho$ and/or no gradient normalization in $y_t$, which is detached from practice. To address this gap, we study deterministic/stochastic versions of SAM with practical configurations (i.e., constant $\rho$ and gradient normalization in $y_t$) and explore their convergence properties on smooth functions with (non)convexity assumptions. Perhaps surprisingly, in many scenarios, we find out that SAM has limited capability to converge to global minima or stationary points. For smooth strongly convex functions, we show that while deterministic SAM enjoys tight global convergence rates of $\tilde \Theta(\frac{1}{T^2})$, the convergence bound of stochastic SAM suffers an inevitable additive term $O(\rho^2)$, indicating convergence only up to neighborhoods of optima. In fact, such $O(\rho^2)$ factors arise for stochastic SAM in all the settings we consider, and also for deterministic SAM in nonconvex cases; importantly, we prove by examples that such terms are unavoidable. Our results highlight vastly different characteristics of SAM with vs. without decaying perturbation size or gradient normalization, and suggest that the intuitions gained from one version may not apply to the other.

arxiv情報

著者 Dongkuk Si,Chulhee Yun
発行日 2023-06-26 15:27:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC, stat.ML パーマリンク