AdaSAM: Boosting Sharpness-Aware Minimization with Adaptive Learning Rate and Momentum for Training Deep Neural Networks

要約

シャープネス認識最小化 (SAM) オプティマイザーは、追加の摂動ステップを導入してディープ ラーニング モデルのランドスケープを平坦化することで、ディープ ニューラル ネットワークのトレーニングをより一般化できるため、広く調査されています。
SAM を適応学習率および運動量加速と統合すること (AdaSAM と呼ばれる) は、結合された摂動ステップ、適応学習率、および運動量ステップを分析する際の 3 つの困難のために、理論的な保証なしに大規模なディープ ニューラル ネットワークをトレーニングするために既に経験的に調査されています。
この論文では、確率的非凸設定での AdaSAM の収束率の分析を試みます。
AdaSAM が $\mathcal{O}(1/\sqrt{bT})$ 収束率を認め、ミニバッチ サイズ $b$ に関して線形の高速化特性を達成することを理論的に示します。
具体的には、確率的勾配ステップを適応学習率と摂動勾配で分離するために、遅延二次運動量項を導入して分解し、分析中に期待値を取りながら独立させます。
次に、適応学習率の範囲が限られていることを示すことでそれらをバインドしました。これにより、分析が実行可能になります。
私たちの知る限りでは、SAM の非自明な収束率に適応学習率と運動量加速を提供したのは私たちが初めてです。
最後に、いくつかの NLP タスクでいくつかの実験を行い、AdaSAM が SGD、AMSGrad、および SAM オプティマイザーと比較して優れたパフォーマンスを達成できることを示しています。

要約(オリジナル)

Sharpness aware minimization (SAM) optimizer has been extensively explored as it can generalize better for training deep neural networks via introducing extra perturbation steps to flatten the landscape of deep learning models. Integrating SAM with adaptive learning rate and momentum acceleration, dubbed AdaSAM, has already been explored empirically to train large-scale deep neural networks without theoretical guarantee due to the triple difficulties in analyzing the coupled perturbation step, adaptive learning rate and momentum step. In this paper, we try to analyze the convergence rate of AdaSAM in the stochastic non-convex setting. We theoretically show that AdaSAM admits a $\mathcal{O}(1/\sqrt{bT})$ convergence rate, which achieves linear speedup property with respect to mini-batch size $b$. Specifically, to decouple the stochastic gradient steps with the adaptive learning rate and perturbed gradient, we introduce the delayed second-order momentum term to decompose them to make them independent while taking an expectation during the analysis. Then we bound them by showing the adaptive learning rate has a limited range, which makes our analysis feasible. To the best of our knowledge, we are the first to provide the non-trivial convergence rate of SAM with an adaptive learning rate and momentum acceleration. At last, we conduct several experiments on several NLP tasks, which show that AdaSAM could achieve superior performance compared with SGD, AMSGrad, and SAM optimizers.

arxiv情報

著者 Hao Sun,Li Shen,Qihuang Zhong,Liang Ding,Shixiang Chen,Jingwei Sun,Jing Li,Guangzhong Sun,Dacheng Tao
発行日 2023-03-01 15:12:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DC, cs.LG, math.OC パーマリンク