Momentum-SAM: Sharpness Aware Minimization without Computational Overhead

要約

最近提案されたディープ ニューラル ネットワーク用の最適化アルゴリズムである Sharpness Aware Minimization (SAM) は、最適化をフラット損失のパラメーター空間領域に導くために、勾配上昇ステップによる勾配計算の前にパラメーターを摂動することを提案しています。
一般化の大幅な改善とそれによる過剰適合の削減は実証できましたが、勾配計算が追加で必要になるため計算コストが 2 倍になり、計算能力が限られている場合には SAM を実行できなくなります。
Nesterov Accelerated Gradient (NAG) を動機として、我々は Momentum-SAM (MSAM) を提案します。これは、蓄積された運動量ベクトルの方向にパラメータを摂動させて、SGD や Adam に比べて大きな計算オーバーヘッドやメモリ要求を発生させずに低い鮮鋭度を実現します。
MSAM を詳細に評価し、トレーニングの最適化と一般化に関する NAG、SAM、MSAM の分離可能なメカニズムに関する洞察を明らかにします。
コードは https://github.com/MarlonBecker/MSAM で入手できます。

要約(オリジナル)

The recently proposed optimization algorithm for deep neural networks Sharpness Aware Minimization (SAM) suggests perturbing parameters before gradient calculation by a gradient ascent step to guide the optimization into parameter space regions of flat loss. While significant generalization improvements and thus reduction of overfitting could be demonstrated, the computational costs are doubled due to the additionally needed gradient calculation, making SAM unfeasible in case of limited computationally capacities. Motivated by Nesterov Accelerated Gradient (NAG) we propose Momentum-SAM (MSAM), which perturbs parameters in the direction of the accumulated momentum vector to achieve low sharpness without significant computational overhead or memory demands over SGD or Adam. We evaluate MSAM in detail and reveal insights on separable mechanisms of NAG, SAM and MSAM regarding training optimization and generalization. Code is available at https://github.com/MarlonBecker/MSAM.

arxiv情報

著者 Marlon Becker,Frederick Altrock,Benjamin Risse
発行日 2024-01-22 15:19:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク