Adaptive Variance Reduction for Stochastic Optimization under Weaker Assumptions

要約

この論文では、STORM 手法に基づいた確率的最適化のための適応分散削減法を検討します。
STORM の既存の適応拡張は、有界勾配や有界関数値などの強力な仮定に依存しているか、収束率に追加の $\mathcal{O}(\log T)$ 項が発生します。
これらの制限に対処するために、新しく設計された学習率戦略を使用して、非凸関数に対して $\mathcal{O}(T^{-1/3})$ の最適な収束率を達成する新しい適応 STORM 手法を導入します。
既存のアプローチと比較して、私たちの方法は弱い仮定を必要とし、追加の $\mathcal{O}(\log T)$ 項なしで最適な収束率を達成します。
また、提案された手法を確率的組成最適化に拡張し、$\mathcal{O}(T^{-1/3})$ の同じ最適レートを取得します。
さらに、非凸有限和問題を調査し、 $\mathcal{O}(n^{1/4} T^{-1/2} ) の最適な収束率を達成する別の革新的な適応分散低減法を開発します。
$、ここで $n$ はコンポーネント関数の数を表します。
さまざまなタスクにわたる数値実験により、私たちの方法の有効性が検証されます。

要約(オリジナル)

This paper explores adaptive variance reduction methods for stochastic optimization based on the STORM technique. Existing adaptive extensions of STORM rely on strong assumptions like bounded gradients and bounded function values, or suffer an additional $\mathcal{O}(\log T)$ term in the convergence rate. To address these limitations, we introduce a novel adaptive STORM method that achieves an optimal convergence rate of $\mathcal{O}(T^{-1/3})$ for non-convex functions with our newly designed learning rate strategy. Compared with existing approaches, our method requires weaker assumptions and attains the optimal convergence rate without the additional $\mathcal{O}(\log T)$ term. We also extend the proposed technique to stochastic compositional optimization, obtaining the same optimal rate of $\mathcal{O}(T^{-1/3})$. Furthermore, we investigate the non-convex finite-sum problem and develop another innovative adaptive variance reduction method that achieves an optimal convergence rate of $\mathcal{O}(n^{1/4} T^{-1/2} )$, where $n$ represents the number of component functions. Numerical experiments across various tasks validate the effectiveness of our method.

arxiv情報

著者 Wei Jiang,Sifan Yang,Yibo Wang,Lijun Zhang
発行日 2024-10-23 14:49:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC パーマリンク