Leveraging Continuous Time to Understand Momentum When Training Diagonal Linear Networks

要約

この研究では、勾配降下法の最適化軌道に対する運動量の影響を調査します。
ステップ サイズ $\gamma$ と運動量パラメーター $\beta$ を使用した運動量勾配降下の解析では連続時間アプローチを活用し、固有量 $\lambda = \frac{ \gamma }{ (1 –
\beta)^2 }$ は、最適化パスを一意に定義し、単純な加速ルールを提供します。
オーバーパラメータ回帰設定で $2$ 層の対角線形ネットワークを学習させる場合、暗黙的な正則化問題を通じて回復された解の特徴を明らかにします。
次に、$\lambda$ の小さな値が疎解の回復に役立つことを証明します。
最後に、確率的運動量勾配降下法についても、同様ではあるが弱い結果が得られます。
私たちは、私たちの主張を裏付ける数値実験を提供します。

要約(オリジナル)

In this work, we investigate the effect of momentum on the optimisation trajectory of gradient descent. We leverage a continuous-time approach in the analysis of momentum gradient descent with step size $\gamma$ and momentum parameter $\beta$ that allows us to identify an intrinsic quantity $\lambda = \frac{ \gamma }{ (1 – \beta)^2 }$ which uniquely defines the optimisation path and provides a simple acceleration rule. When training a $2$-layer diagonal linear network in an overparametrised regression setting, we characterise the recovered solution through an implicit regularisation problem. We then prove that small values of $\lambda$ help to recover sparse solutions. Finally, we give similar but weaker results for stochastic momentum gradient descent. We provide numerical experiments which support our claims.

arxiv情報

著者 Hristo Papazov,Scott Pesme,Nicolas Flammarion
発行日 2024-03-08 13:21:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC, stat.ML パーマリンク