The Crucial Role of Normalization in Sharpness-Aware Minimization

要約

Sharpness-Aware Minimization (SAM) は、ディープ ニューラル ネットワークの予測パフォーマンスを大幅に向上させる、最近提案された勾配ベースのオプティマイザー (Foret et al.、ICLR 2021) です。
その結果、その実証的な成功を説明することに関心が高まっています。
特に、SAM アップデートの重要なコンポーネントである正規化が果たす役割を理解することに重点を置いています。
私たちは、凸関数と非凸関数の両方について SAM における正規化の効果を理論的および経験的に研究し、正規化が果たす 2 つの重要な役割を明らかにしました。i) アルゴリズムの安定化に役立ちます。
ii) これにより、アルゴリズムが最小値の連続体 (多様体) に沿ってドリフトできるようになります。これは、パフォーマンス向上の鍵となる最近の理論的研究によって特定された特性です。
さらに、正規化のこれら 2 つの特性により、SAM がハイパーパラメータの選択に対して堅牢になり、SAM の実用性が裏付けられると主張します。
私たちの結論はさまざまな実験によって裏付けられています。

要約(オリジナル)

Sharpness-Aware Minimization (SAM) is a recently proposed gradient-based optimizer (Foret et al., ICLR 2021) that greatly improves the prediction performance of deep neural networks. Consequently, there has been a surge of interest in explaining its empirical success. We focus, in particular, on understanding the role played by normalization, a key component of the SAM updates. We theoretically and empirically study the effect of normalization in SAM for both convex and non-convex functions, revealing two key roles played by normalization: i) it helps in stabilizing the algorithm; and ii) it enables the algorithm to drift along a continuum (manifold) of minima — a property identified by recent theoretical works that is the key to better performance. We further argue that these two properties of normalization make SAM robust against the choice of hyper-parameters, supporting the practicality of SAM. Our conclusions are backed by various experiments.

arxiv情報

著者 Yan Dai,Kwangjun Ahn,Suvrit Sra
発行日 2023-10-23 16:12:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML パーマリンク