Shuffle SGD is Always Better than SGD: Improved Analysis of SGD with Arbitrary Data Orders

要約

確率的勾配降下法 (SGD) アルゴリズムは、ニューラル ネットワークの最適化に広く使用されており、トレーニング データのランダムまたは単一の置換を循環させるためのランダム シャッフル (RR) とシングル シャッフル (SS) が一般的な選択肢です。
ただし、非凸の場合におけるこれらのアルゴリズムの収束特性は完全には理解されていません。
既存の結果は、エポック数がトレーニング セット サイズよりも小さい現実的なトレーニング シナリオでは、RR のパフォーマンスが SGD よりも悪くなる可能性があることを示唆しています。
この論文では、任意のデータ順序付けを可能にする一般的な SGD アルゴリズムを分析し、非凸関数の収束率の向上を示します。
具体的には、私たちの分析では、反復回数に関係なく、ランダムおよび単一シャッフルを使用した SGD が常に高速であるか、置換を使用した従来の SGD と少なくとも同等であることが明らかになりました。
全体として、私たちの研究は、ランダム/シングルシャッフルで SGD を使用する利点を強調し、非凸最適化の収束特性についての新しい洞察を提供します。

要約(オリジナル)

Stochastic Gradient Descent (SGD) algorithms are widely used in optimizing neural networks, with Random Reshuffling (RR) and Single Shuffle (SS) being popular choices for cycling through random or single permutations of the training data. However, the convergence properties of these algorithms in the non-convex case are not fully understood. Existing results suggest that, in realistic training scenarios where the number of epochs is smaller than the training set size, RR may perform worse than SGD. In this paper, we analyze a general SGD algorithm that allows for arbitrary data orderings and show improved convergence rates for non-convex functions. Specifically, our analysis reveals that SGD with random and single shuffling is always faster or at least as good as classical SGD with replacement, regardless of the number of iterations. Overall, our study highlights the benefits of using SGD with random/single shuffling and provides new insights into its convergence properties for non-convex optimization.

arxiv情報

著者 Anastasia Koloskova,Nikita Doikov,Sebastian U. Stich,Martin Jaggi
発行日 2023-08-08 16:05:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC, stat.ML パーマリンク