(S)GD over Diagonal Linear Networks: Implicit Regularisation, Large Stepsizes and Edge of Stability

要約

この論文では、対角線形ネットワーク上の勾配降下 (GD) と確率的勾配降下 (SGD) の暗黙の正則化に対する確率と大きなステップサイズの影響を調査します。
GD と SGD の収束を巨視的なステップサイズでオーバーパラメーター化された回帰設定で証明し、暗黙の正則化問題を通じてそれらの解を特徴付けます。
私たちの鮮明な特性評価は、回復されたソリューションに対する確率論とステップサイズの影響に関する定性的な洞察につながります。
具体的には、大きなステップサイズは、スパース回帰問題の SGD に一貫してメリットをもたらしますが、GD のスパース ソリューションの回復を妨げる可能性があることを示します。
これらの効果は、「安定の端」領域で、発散しきい値のすぐ下の狭いウィンドウでステップサイズに対して拡大されます。
私たちの調査結果は、実験結果によってサポートされています。

要約(オリジナル)

In this paper, we investigate the impact of stochasticity and large stepsizes on the implicit regularisation of gradient descent (GD) and stochastic gradient descent (SGD) over diagonal linear networks. We prove the convergence of GD and SGD with macroscopic stepsizes in an overparametrised regression setting and characterise their solutions through an implicit regularisation problem. Our crisp characterisation leads to qualitative insights about the impact of stochasticity and stepsizes on the recovered solution. Specifically, we show that large stepsizes consistently benefit SGD for sparse regression problems, while they can hinder the recovery of sparse solutions for GD. These effects are magnified for stepsizes in a tight window just below the divergence threshold, in the “edge of stability” regime. Our findings are supported by experimental results.

arxiv情報

著者 Mathieu Even,Scott Pesme,Suriya Gunasekar,Nicolas Flammarion
発行日 2023-02-17 16:37:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC, stat.ML パーマリンク