Shuffling Momentum Gradient Algorithm for Convex Optimization

要約

確率的勾配降下法 (SGD) とその確率的バリアントは、大規模なアプリケーションとビッグ データセットを処理できるため、機械学習とデータ サイエンスから生じる有限和最適化問題を解決するための最適な方法となっています。
過去数十年間、研究者は SGD とそのシャッフルの変形の理論的パフォーマンスを研究するために多大な努力を払ってきました。
しかし、非凸問題に対するヘビーボール運動量スキームのシャッフルや凸設定に対するネステロフの運動量など、シャッフル運動量のバリエーションを調査した研究は限られています。
この研究では、[Tran et al (2021)] で開発されたシャッフル運動量勾配法の解析を、有限和凸最適化問題と強凸最適化問題の両方に拡張します。
我々は、$O(1/nT^2)$の収束率を達成する、強い凸型設定に対するシャッフル運動量ベースの手法の最初の解析を提供します。ここで、$n$はサンプル数、$T$はサンプル数です。
トレーニングの時代。
私たちの分析は最先端のものであり、文献にある既存のシャッフル確率的勾配アルゴリズムの最良のレートと一致します。

要約(オリジナル)

The Stochastic Gradient Descent method (SGD) and its stochastic variants have become methods of choice for solving finite-sum optimization problems arising from machine learning and data science thanks to their ability to handle large-scale applications and big datasets. In the last decades, researchers have made substantial effort to study the theoretical performance of SGD and its shuffling variants. However, only limited work has investigated its shuffling momentum variants, including shuffling heavy-ball momentum schemes for non-convex problems and Nesterov’s momentum for convex settings. In this work, we extend the analysis of the shuffling momentum gradient method developed in [Tran et al (2021)] to both finite-sum convex and strongly convex optimization problems. We provide the first analysis of shuffling momentum-based methods for the strongly convex setting, attaining a convergence rate of $O(1/nT^2)$, where $n$ is the number of samples and $T$ is the number of training epochs. Our analysis is a state-of-the-art, matching the best rates of existing shuffling stochastic gradient algorithms in the literature.

arxiv情報

著者 Trang H. Tran,Quoc Tran-Dinh,Lam M. Nguyen
発行日 2024-03-05 18:19:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC パーマリンク