Adaptive SGD with Polyak stepsize and Line-search: Robust Convergence and Variance Reduction

要約

最近提案された SGD 用の確率的 Polyak ステップサイズ (SPS) と確率的ラインサーチ (SLS) は、過剰パラメータ化されたモデルをトレーニングする場合に顕著な有効性を示しています。
ただし、非内挿設定では、どちらのアルゴリズムも解の近傍への収束のみを保証するため、最初の推測よりも悪い出力が得られる可能性があります。
この問題に対処するために適応ステップサイズを人為的に減少させることが提案されていますが (Orvieto et al. [2022])、このアプローチでは凸モデルや過剰パラメータ化モデルの収束速度が遅くなります。
この研究では、私たちは 2 つの貢献を行います。まず、AdaSPS および AdaSLS と呼ばれる、SPS と SLS の 2 つの新しいバリアントを提案します。これらは、非内挿設定での収束を保証し、凸関数および強凸関数の準線形および線形収束レートを維持します。
過剰にパラメータ化されたモデルをトレーニングします。
AdaSLS では、問題に依存するパラメータの知識は必要ありません。AdaSPS では、入力として最適な関数値の下限のみが必要です。
次に、AdaSPS と AdaSLS に新しい分散削減手法を装備し、 $\smash{\widetilde{\mathcal{O}}}(n+1/\epsilon)$ 勾配評価を必要とするアルゴリズムを取得して $\mathcal{
凸関数に対する O}(\epsilon)$-準最適性。これは、非内挿領域での分散削減を行わずに、AdaSPS および AdaSLS の遅い $\mathcal{O}(1/\epsilon^2)$ レートを改善します。
さらに、私たちの結果は AdaSVRG の高速レートと一致しますが、内側/外側ループ構造が削除されているため、実装と分析が容易になります。
最後に、合成データセットと実際のデータセットでの数値実験により理論が検証され、アルゴリズムの有効性と堅牢性が実証されます。

要約(オリジナル)

The recently proposed stochastic Polyak stepsize (SPS) and stochastic line-search (SLS) for SGD have shown remarkable effectiveness when training over-parameterized models. However, in non-interpolation settings, both algorithms only guarantee convergence to a neighborhood of a solution which may result in a worse output than the initial guess. While artificially decreasing the adaptive stepsize has been proposed to address this issue (Orvieto et al. [2022]), this approach results in slower convergence rates for convex and over-parameterized models. In this work, we make two contributions: Firstly, we propose two new variants of SPS and SLS, called AdaSPS and AdaSLS, which guarantee convergence in non-interpolation settings and maintain sub-linear and linear convergence rates for convex and strongly convex functions when training over-parameterized models. AdaSLS requires no knowledge of problem-dependent parameters, and AdaSPS requires only a lower bound of the optimal function value as input. Secondly, we equip AdaSPS and AdaSLS with a novel variance reduction technique and obtain algorithms that require $\smash{\widetilde{\mathcal{O}}}(n+1/\epsilon)$ gradient evaluations to achieve an $\mathcal{O}(\epsilon)$-suboptimality for convex functions, which improves upon the slower $\mathcal{O}(1/\epsilon^2)$ rates of AdaSPS and AdaSLS without variance reduction in the non-interpolation regimes. Moreover, our result matches the fast rates of AdaSVRG but removes the inner-outer-loop structure, which is easier to implement and analyze. Finally, numerical experiments on synthetic and real datasets validate our theory and demonstrate the effectiveness and robustness of our algorithms.

arxiv情報

著者 Xiaowen Jiang,Sebastian U. Stich
発行日 2023-08-21 16:28:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC, stat.ML パーマリンク