Nonasymptotic Analysis of Stochastic Gradient Descent with the Richardson-Romberg Extrapolation

要約

本論文では、一定のステップサイズを持つ確率的勾配降下(SGD)アルゴリズムを用いて、強く凸で滑らかな最小化問題を解く問題を扱う。これまでの研究では、SGDの漸近的なバイアスを軽減するために、Polyak-Ruppert平均化手続きとRichardson-Romberg外挿を組み合わせることが提案されているが、その代償として分散が若干増加する。我々は、結果の推定量の平均二乗誤差の反復回数$n$に対する拡張を提供することにより、これまでの結果を大幅に拡張する。最小最適漸近共分散行列に明示的に依存する$mathcal{O}(n^{-1/2})$の一次項と、$3/4$乗が最もよく知られている$mathcal{O}(n^{-3/4})$の二次項である。また、この結果を高次のモーメント境界に拡張する。我々の解析は、SGD反復を時間均質マルコフ連鎖として見たときの性質に依存している。特に、この連鎖が、適切に定義された重み付きWasserstein半準量に関して幾何学的にエルゴードであることを証明する。

要約(オリジナル)

We address the problem of solving strongly convex and smooth minimization problems using stochastic gradient descent (SGD) algorithm with a constant step size. Previous works suggested to combine the Polyak-Ruppert averaging procedure with the Richardson-Romberg extrapolation to reduce the asymptotic bias of SGD at the expense of a mild increase of the variance. We significantly extend previous results by providing an expansion of the mean-squared error of the resulting estimator with respect to the number of iterations $n$. We show that the root mean-squared error can be decomposed into the sum of two terms: a leading one of order $\mathcal{O}(n^{-1/2})$ with explicit dependence on a minimax-optimal asymptotic covariance matrix, and a second-order term of order $\mathcal{O}(n^{-3/4})$, where the power $3/4$ is best known. We also extend this result to the higher-order moment bounds. Our analysis relies on the properties of the SGD iterates viewed as a time-homogeneous Markov chain. In particular, we establish that this chain is geometrically ergodic with respect to a suitably defined weighted Wasserstein semimetric.

arxiv情報

著者 Marina Sheshukova,Denis Belomestny,Alain Durmus,Eric Moulines,Alexey Naumov,Sergey Samsonov
発行日 2025-03-03 13:18:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: 62L20, 93E35, cs.LG, math.OC, stat.ML パーマリンク