要約
確率的勾配降下法 (SGD) はニューラル ネットワーク最適化の基礎となっていますが、エポックベースのトレーニングが普及しているにもかかわらず、SGD によって導入されるノイズは時間の経過とともに相関がないとみなされることがよくあります。
この研究では、この仮定に異議を唱え、二次損失に限定した、運動量を伴う離散時間 SGD の定常分布に対するエポックベースのノイズ相関の影響を調査します。
私たちの主な貢献は 2 つあります。まず、ノイズが重みベクトルの小さな変動から独立しているという仮定の下で、エポックでトレーニングするためのノイズの正確な自己相関を計算します。
2 番目に、エポックベースの学習スキームによって導入された相関が SGD ダイナミクスに及ぼす影響を調査します。
ハイパーパラメータに依存するクロスオーバー値より大きい曲率を持つ方向では、無相関ノイズの結果が回復されることがわかります。
ただし、比較的平坦な方向では、重量の分散は大幅に減少します。
相関時間間のクロスオーバーに基づいてこれらの結果を直感的に説明し、エポックベースのノイズ相関が存在する場合の SGD のダイナミクスのより深い理解に貢献します。
要約(オリジナル)
Stochastic gradient descent (SGD) has become a cornerstone of neural network optimization, yet the noise introduced by SGD is often assumed to be uncorrelated over time, despite the ubiquity of epoch-based training. In this work, we challenge this assumption and investigate the effects of epoch-based noise correlations on the stationary distribution of discrete-time SGD with momentum, limited to a quadratic loss. Our main contributions are twofold: first, we calculate the exact autocorrelation of the noise for training in epochs under the assumption that the noise is independent of small fluctuations in the weight vector; second, we explore the influence of correlations introduced by the epoch-based learning scheme on SGD dynamics. We find that for directions with a curvature greater than a hyperparameter-dependent crossover value, the results for uncorrelated noise are recovered. However, for relatively flat directions, the weight variance is significantly reduced. We provide an intuitive explanation for these results based on a crossover between correlation times, contributing to a deeper understanding of the dynamics of SGD in the presence of epoch-based noise correlations.
arxiv情報
著者 | Marcel Kühn,Bernd Rosenow |
発行日 | 2023-06-08 15:45:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google