High Probability Convergence of Stochastic Gradient Methods

要約

この作業では、サブガウス ノイズを使用した確率的凸最適化と非凸最適化の両方で高い確率で収束を示す一般的なアプローチについて説明します。
凸最適化に関するこれまでの研究では、収束が予想されるだけであるか、範囲が領域の直径に依存するかのいずれかでした。
代わりに、最適解までの初期距離に応じて、境界を持つ高確率の収束を示します。
アルゴリズムは、標準設定に類似したステップ サイズを使用し、リプシッツ関数、平滑化関数、およびそれらの線形結合に共通です。
この方法は、非凸の場合にも適用できます。
$O((1+\sigma^{2}\log(1/\delta))/T+\sigma/\sqrt{T})$ の収束率を示します
$O((1+\sigma^{2}\log(T/\delta))/\sqrt{T})$ SGD の $T$ が不明な場合の収束率、ここで $1-\delta$ は望ましい成功です
確率。
これらの境界は、文献の既存の境界よりも改善されています。
さらに、私たちの手法を使用して、以前の研究から有界勾配の仮定を取り除く AdaGrad-Norm (Ward et al., 2019) の高い確率範囲を取得できることを示します。
さらに、AdaGrad-Norm の手法は、標準の座標ごとの AdaGrad アルゴリズム (Duchi et al., 2011) に拡張され、AdaGrad に最初のノイズ適応高確率収束を提供します。

要約(オリジナル)

In this work, we describe a generic approach to show convergence with high probability for both stochastic convex and non-convex optimization with sub-Gaussian noise. In previous works for convex optimization, either the convergence is only in expectation or the bound depends on the diameter of the domain. Instead, we show high probability convergence with bounds depending on the initial distance to the optimal solution. The algorithms use step sizes analogous to the standard settings and are universal to Lipschitz functions, smooth functions, and their linear combinations. This method can be applied to the non-convex case. We demonstrate an $O((1+\sigma^{2}\log(1/\delta))/T+\sigma/\sqrt{T})$ convergence rate when the number of iterations $T$ is known and an $O((1+\sigma^{2}\log(T/\delta))/\sqrt{T})$ convergence rate when $T$ is unknown for SGD, where $1-\delta$ is the desired success probability. These bounds improve over existing bounds in the literature. Additionally, we demonstrate that our techniques can be used to obtain high probability bound for AdaGrad-Norm (Ward et al., 2019) that removes the bounded gradients assumption from previous works. Furthermore, our technique for AdaGrad-Norm extends to the standard per-coordinate AdaGrad algorithm (Duchi et al., 2011), providing the first noise-adapted high probability convergence for AdaGrad.

arxiv情報

著者 Zijian Liu,Ta Duy Nguyen,Thien Hang Nguyen,Alina Ene,Huy Lê Nguyen
発行日 2023-02-28 18:42:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DS, cs.LG, math.OC パーマリンク