On the Interplay Between Stepsize Tuning and Progressive Sharpening

要約

最近の実験的研究により、固定ステップサイズを与えられた場合、オプティマイザが安定性の限界で動作する臨界値付近で安定するまで、最適化全体を通じてシャープネス (ヘッセ行列の最大固有値) が増加するという深層学習モデルの興味深い特性が明らかになりました (Cohen)
他、2022)。
私たちは、反復に沿ってステップサイズを暗黙的にシャープネス自体などの局所的な量に適応させるステップサイズチューナー、Armijo ラインサーチおよび Polyak ステップサイズを使用したときにシャープネスがどのように変化するかを経験的に調査します。
決定論的設定における古典的なArmijoラインサーチの驚くほど悪いパフォーマンスは、目標の鮮明度が常に増加する傾向によって十分に説明できる可能性があることがわかりました。
一方、Polyak ステップサイズは一般的に安定性の限界か、それをわずかに超えて動作し、決定論的設定では Armijo および一定のステップサイズの対応物よりも優れたパフォーマンスを発揮することが観察されています。
私たちは、ステップサイズチューナーのロックを解除するには、ステップサイズとシャープネスのジョイントダイナミクスを理解する必要があることを示唆する分析で結論付けています。

要約(オリジナル)

Recent empirical work has revealed an intriguing property of deep learning models by which the sharpness (largest eigenvalue of the Hessian) increases throughout optimization until it stabilizes around a critical value at which the optimizer operates at the edge of stability, given a fixed stepsize (Cohen et al, 2022). We investigate empirically how the sharpness evolves when using stepsize-tuners, the Armijo linesearch and Polyak stepsizes, that adapt the stepsize along the iterations to local quantities such as, implicitly, the sharpness itself. We find that the surprisingly poor performance of a classical Armijo linesearch in the deterministic setting may be well explained by its tendency to ever-increase the sharpness of the objective. On the other hand, we observe that Polyak stepsizes operate generally at the edge of stability or even slightly beyond, outperforming its Armijo and constant stepsizes counterparts in the deterministic setting. We conclude with an analysis that suggests unlocking stepsize tuners requires an understanding of the joint dynamics of the step size and the sharpness.

arxiv情報

著者 Vincent Roulet,Atish Agarwala,Fabian Pedregosa
発行日 2023-12-29 23:44:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, math.OC パーマリンク