(S)GD over Diagonal Linear Networks: Implicit Regularisation, Large Stepsizes and Edge of Stability

要約

この論文では、対角線形ネットワーク上の勾配降下法 (GD) と確率的勾配降下法 (SGD) の暗黙的な正則化に対する確率性と大きなステップサイズの影響を調査します。
過剰パラメータ化された回帰設定における巨視的なステップサイズによる GD と SGD の収束を証明し、暗黙的な正則化問題を通じてその解を特徴付けます。
当社の鮮明な特性評価により、回収されたソリューションに対する確率性とステップサイズの影響に関する定性的な洞察が得られます。
具体的には、大きなステップサイズは、スパース回帰問題に対しては SGD に一貫して利益をもたらしますが、GD に対するスパース解の回復を妨げる可能性があることを示します。
これらの効果は、「安定性の限界」領域における発散閾値のすぐ下の狭いウィンドウ内でステップサイズが大きくなるにつれて拡大されます。
私たちの発見は実験結果によって裏付けられています。

要約(オリジナル)

In this paper, we investigate the impact of stochasticity and large stepsizes on the implicit regularisation of gradient descent (GD) and stochastic gradient descent (SGD) over diagonal linear networks. We prove the convergence of GD and SGD with macroscopic stepsizes in an overparametrised regression setting and characterise their solutions through an implicit regularisation problem. Our crisp characterisation leads to qualitative insights about the impact of stochasticity and stepsizes on the recovered solution. Specifically, we show that large stepsizes consistently benefit SGD for sparse regression problems, while they can hinder the recovery of sparse solutions for GD. These effects are magnified for stepsizes in a tight window just below the divergence threshold, in the ‘edge of stability’ regime. Our findings are supported by experimental results.

arxiv情報

著者 Mathieu Even,Scott Pesme,Suriya Gunasekar,Nicolas Flammarion
発行日 2023-10-25 16:09:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC, stat.ML パーマリンク