On the Last-Iterate Convergence of Shuffling Gradient Methods

要約

非置換確率的勾配降下法 (SGD) としても知られるシャッフリング勾配法は、実際に広く実装されており、特に、ランダム再シャッフル (RR)、シャッフル ワンス (SO)、増分勾配 (IG) の 3 つの一般的なアルゴリズムが含まれます。
経験的な成功と比較して、勾配シャッフル法の理論的保証は長い間よく理解されていませんでした。
最近まで、収束率は、凸関数の平均反復と、強凸問題の最後の反復 (メトリックとして二乗距離を使用) について確立されていました。
ただし、関数値のギャップを収束基準として使用する場合、既存の理論では、異なる設定 (制約付き最適化など) での最後の反復の良好なパフォーマンスを解釈できません。
実践と理論の間のこのギャップを埋めるために、強い凸性がない場合でも、目的値に関するシャッフル勾配法の最後の反復収束率を証明します。
新しい結果は、既存の最後の反復の下限と(ほぼ)一致するか、平均反復の以前の最良の上限と同じくらい高速です。

要約(オリジナル)

Shuffling gradient methods, which are also known as stochastic gradient descent (SGD) without replacement, are widely implemented in practice, particularly including three popular algorithms: Random Reshuffle (RR), Shuffle Once (SO), and Incremental Gradient (IG). Compared to the empirical success, the theoretical guarantee of shuffling gradient methods was not well-understanding for a long time. Until recently, the convergence rates had just been established for the average iterate for convex functions and the last iterate for strongly convex problems (using squared distance as the metric). However, when using the function value gap as the convergence criterion, existing theories cannot interpret the good performance of the last iterate in different settings (e.g., constrained optimization). To bridge this gap between practice and theory, we prove last-iterate convergence rates for shuffling gradient methods with respect to the objective value even without strong convexity. Our new results either (nearly) match the existing last-iterate lower bounds or are as fast as the previous best upper bounds for the average iterate.

arxiv情報

著者 Zijian Liu,Zhengyuan Zhou
発行日 2024-03-12 15:01:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC, stat.ML パーマリンク