要約
最近の実験では、多くの場合、ステップ サイズ $\eta$ の勾配降下法 (GD) でニューラル ネットワークをトレーニングすると、損失のヘッセ行列の演算子ノルムがほぼ $2/\eta$ に達するまで増加し、その後は増加することが示されています。
この値を中心に変動します。
量 $2/\eta$ は、損失の局所二次近似の考慮に基づいて「安定性の端」と呼ばれています。
同様の計算を実行して、一般化を改善することが示されている GD の変形である、Sharpness-Aware Minimization (SAM) の「安定性の限界」に到達します。
GD の場合とは異なり、結果として得られる SAM エッジは勾配のノルムに依存します。
3 つの深層学習トレーニング タスクを使用すると、SAM がこの分析で特定された安定性の限界で動作することが経験的にわかります。
要約(オリジナル)
Recent experiments have shown that, often, when training a neural network with gradient descent (GD) with a step size $\eta$, the operator norm of the Hessian of the loss grows until it approximately reaches $2/\eta$, after which it fluctuates around this value. The quantity $2/\eta$ has been called the ‘edge of stability’ based on consideration of a local quadratic approximation of the loss. We perform a similar calculation to arrive at an ‘edge of stability’ for Sharpness-Aware Minimization (SAM), a variant of GD which has been shown to improve its generalization. Unlike the case for GD, the resulting SAM-edge depends on the norm of the gradient. Using three deep learning training tasks, we see empirically that SAM operates on the edge of stability identified by this analysis.
arxiv情報
| 著者 | Philip M. Long,Peter L. Bartlett |
| 発行日 | 2023-10-05 15:59:43+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google