Normalization Layers Are All That Sharpness-Aware Minimization Needs

要約

シャープネスを意識した最小化 (SAM) は、最小値のシャープネスを低減するために提案され、さまざまな設定で汎化パフォーマンスを向上させることが示されています。
この研究では、SAM の敵対的ステップでアフィン正規化パラメータ (通常、全パラメータの 0.1% を構成) のみを摂動させると、すべてのパラメータを摂動させるよりも優れたパフォーマンスを発揮できることを示します。この発見は、さまざまな SAM バリアントと ResNet (バッチ正規化) の両方に一般化されます。
および Vision Transformer (レイヤー正規化) アーキテクチャ。
代替のスパース摂動アプローチを検討したところ、そのような極端なスパース レベルでは同様のパフォーマンス向上が達成されないことがわかり、この動作が正規化層に固有であることがわかります。
私たちの調査結果は、汎化パフォーマンスの向上における SAM の有効性を再確認していますが、これが単にシャープネスの低下だけによって引き起こされているのかどうかについては疑問を投げかけています。

要約(オリジナル)

Sharpness-aware minimization (SAM) was proposed to reduce sharpness of minima and has been shown to enhance generalization performance in various settings. In this work we show that perturbing only the affine normalization parameters (typically comprising 0.1% of the total parameters) in the adversarial step of SAM can outperform perturbing all of the parameters.This finding generalizes to different SAM variants and both ResNet (Batch Normalization) and Vision Transformer (Layer Normalization) architectures. We consider alternative sparse perturbation approaches and find that these do not achieve similar performance enhancement at such extreme sparsity levels, showing that this behaviour is unique to the normalization layers. Although our findings reaffirm the effectiveness of SAM in improving generalization performance, they cast doubt on whether this is solely caused by reduced sharpness.

arxiv情報

著者 Maximilian Mueller,Tiffany Vlaar,David Rolnick,Matthias Hein
発行日 2023-11-17 08:23:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク