On the Trajectories of SGD Without Replacement

要約

この記事では、確率的勾配降下法 (SGD) の暗黙的な正則化効果を検証します。
大規模なニューラル ネットワークを最適化するために通常使用されるバリアントである、置換なしの SGD のケースを検討します。
私たちはこのアルゴリズムを、SGD の理論的研究で通常考慮されるものよりも現実的な領域で分析します。たとえば、学習率とヘッセ行列の積が $O(1)$ になるようにします。
私たちの中心となる理論的結果は、置換なしで SGD を使用して最適化することは、新しい正則化子で追加のステップを実行することと局所的に同等であるということです。
これは、置換なしの SGD の軌跡が、ノイズ注入ありの GD と置換ありの SGD (バッチが i.i.d. サンプリングされる) の両方から分岐していることを意味します。
実際、2 つの SGD は、損失状況の平坦な領域を異なる方向に、異なる速度で移動します。
予想では、置換なしの SGD はサドルからの脱出が大幅に速くなり、差異が小さくなる可能性があります。
さらに、SGD が小さく負のヘッシアン固有値の固有方向におけるノイズ共分散のトレースを暗黙的に正規化することがわかりました。
これは、いくつかの視覚タスクでフィッシャー行列とヘッセ行列の重み付けされたトレースにペナルティを課すことと一致し、したがって、以前の研究からの経験的観察と一致して、損失のヘッセ行列のスペクトルの希薄化が促進されます。
また、SGD が (GD とは対照的に) 安定の限界でトレーニングしない理由の説明も提案します。

要約(オリジナル)

This article examines the implicit regularization effect of Stochastic Gradient Descent (SGD). We consider the case of SGD without replacement, the variant typically used to optimize large-scale neural networks. We analyze this algorithm in a more realistic regime than typically considered in theoretical works on SGD, as, e.g., we allow the product of the learning rate and Hessian to be $O(1)$. Our core theoretical result is that optimizing with SGD without replacement is locally equivalent to making an additional step on a novel regularizer. This implies that the trajectory of SGD without replacement diverges from both noise-injected GD and SGD with replacement (in which batches are sampled i.i.d.). Indeed, the two SGDs travel flat regions of the loss landscape in distinct directions and at different speeds. In expectation, SGD without replacement may escape saddles significantly faster and present a smaller variance. Moreover, we find that SGD implicitly regularizes the trace of the noise covariance in the eigendirections of small and negative Hessian eigenvalues. This coincides with penalizing a weighted trace of the Fisher Matrix and the Hessian on several vision tasks, thus encouraging sparsity in the spectrum of the Hessian of the loss in line with empirical observations from prior work. We also propose an explanation for why SGD does not train at the edge of stability (as opposed to GD).

arxiv情報

著者 Pierfrancesco Beneventano
発行日 2023-12-26 18:06:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC, stat.ML パーマリンク