ROOT-SGD: Sharp Nonasymptotics and Near-Optimal Asymptotics in a Single Algorithm

要約

確率的一次アルゴリズムを使用して、強く凸で滑らかな制約なしの最適化問題を解く問題を研究します。
私たちは、簡単に実装可能な過去の確率的勾配の再帰的平均化に基づいた、\emph{Recursive One-Over-T SGD} (\textsf{ROOT-SGD}) と呼ばれる新しいアルゴリズムを考案しました。
有限サンプル、非漸近的な意味と漸近的な意味の両方で最先端のパフォーマンスを同時に達成することを証明します。
非漸近的な側では、単一の前因数で最適な統計的リスクに一致する先行項と、
ヘッセ行列のリプシッツ条件下で $O(n^{-3/2})$ の急激なレート。
漸近側では、穏やかな 1 点ヘッセ連続条件が課されると、(マルチエポック) \textsf{ROOT-SGD} の再スケーリングされた最後の反復が Cram のガウス限界に漸近収束することを示します。
e}r-Rao の幅広いステップ サイズ選択に対する最適な漸近共分散。

要約(オリジナル)

We study the problem of solving strongly convex and smooth unconstrained optimization problems using stochastic first-order algorithms. We devise a novel algorithm, referred to as \emph{Recursive One-Over-T SGD} (\textsf{ROOT-SGD}), based on an easily implementable, recursive averaging of past stochastic gradients. We prove that it simultaneously achieves state-of-the-art performance in both a finite-sample, nonasymptotic sense and an asymptotic sense. On the nonasymptotic side, we prove risk bounds on the last iterate of \textsf{ROOT-SGD} with leading-order terms that match the optimal statistical risk with a unity pre-factor, along with a higher-order term that scales at the sharp rate of $O(n^{-3/2})$ under the Lipschitz condition on the Hessian matrix. On the asymptotic side, we show that when a mild, one-point Hessian continuity condition is imposed, the rescaled last iterate of (multi-epoch) \textsf{ROOT-SGD} converges asymptotically to a Gaussian limit with the Cram\'{e}r-Rao optimal asymptotic covariance, for a broad range of step-size choices.

arxiv情報

著者 Chris Junchi Li
発行日 2024-06-18 17:03:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC, stat.ML パーマリンク