要約
ディープ ニューラル ネットワークは、複雑で非凸の損失ランドスケープにより、一般化が不十分になることがよくあります。
Sharpness-Aware Minimization (SAM) は、重みに摂動を追加するときにトレーニング損失の最大化された変化を最小限に抑えることで、損失の状況を平滑化する一般的なソリューションです。
ただし、すべてのパラメーターに対する SAM の無差別な摂動は最適ではなく、過剰な計算が発生し、確率的勾配降下法 (SGD) などの一般的なオプティマイザーのオーバーヘッドが 2 倍になります。
この論文では、バイナリ マスクによってスパース摂動を実現する効率的かつ効果的なトレーニング スキームである Sparse SAM (SSAM) を提案します。
スパース マスクを取得するために、フィッシャー情報と動的スパース トレーニングに基づいた 2 つのソリューションをそれぞれ提供します。
私たちは、非構造化パターン、構造化パターン、$N$:$M$ 構造化パターンを含むさまざまなマスクの影響と、スパース摂動の実装の明示的および暗黙的な形式を調査します。
SSAM が SAM と同じ速度、つまり $O(\log T/\sqrt{T})$ で収束できることを理論的に証明します。
スパース SAM には、トレーニングを加速し、損失状況を効果的に平滑化する可能性があります。
CIFAR および ImageNet-1K に関する広範な実験結果により、私たちの方法が効率の点で SAM よりも優れており、わずか 50% のスパース性の摂動でパフォーマンスが維持または向上することが確認されています。
コードは https://github.com/Mi-Peng/Systematic-Investigation-of-Sparse-Perturbed-Sharpness-Aware-Minimization-Optimizer で入手できます。
要約(オリジナル)
Deep neural networks often suffer from poor generalization due to complex and non-convex loss landscapes. Sharpness-Aware Minimization (SAM) is a popular solution that smooths the loss landscape by minimizing the maximized change of training loss when adding a perturbation to the weight. However, indiscriminate perturbation of SAM on all parameters is suboptimal and results in excessive computation, double the overhead of common optimizers like Stochastic Gradient Descent (SGD). In this paper, we propose Sparse SAM (SSAM), an efficient and effective training scheme that achieves sparse perturbation by a binary mask. To obtain the sparse mask, we provide two solutions based on Fisher information and dynamic sparse training, respectively. We investigate the impact of different masks, including unstructured, structured, and $N$:$M$ structured patterns, as well as explicit and implicit forms of implementing sparse perturbation. We theoretically prove that SSAM can converge at the same rate as SAM, i.e., $O(\log T/\sqrt{T})$. Sparse SAM has the potential to accelerate training and smooth the loss landscape effectively. Extensive experimental results on CIFAR and ImageNet-1K confirm that our method is superior to SAM in terms of efficiency, and the performance is preserved or even improved with a perturbation of merely 50\% sparsity. Code is available at https://github.com/Mi-Peng/Systematic-Investigation-of-Sparse-Perturbed-Sharpness-Aware-Minimization-Optimizer.
arxiv情報
著者 | Peng Mi,Li Shen,Tianhe Ren,Yiyi Zhou,Tianshuo Xu,Xiaoshuai Sun,Tongliang Liu,Rongrong Ji,Dacheng Tao |
発行日 | 2023-06-30 09:33:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google