On the Overlooked Pitfalls of Weight Decay and How to Mitigate Them: A Gradient-Norm Perspective

要約

重み減衰は、ディープ ニューラル ネットワーク (DNN) のトレーニングで非常に広く使用されている、シンプルかつ強力な正則化手法です。
重みの減衰は多くの注目を集めていますが、これまでの研究では、重みの減衰によって生じる大きな勾配規範に関する見落とされている落とし穴を発見できていません。
この論文では、残念ながら、重みの減衰によりトレーニングの最終段階 (または終了した解) で大きな勾配ノルムが発生する可能性があり、これは多くの場合、収束性の低下や一般化の不良を示していることがわかりました。
勾配ノルム中心の落とし穴を軽減するために、勾配ノルムに従って重み減衰強度を動的に調整し、トレーニング中に大きな勾配ノルムに大幅なペナルティを与えることができる、スケジュールされた重み減衰 (SWD) メソッドと呼ばれる、重み減衰のための最初の実用的なスケジューラを紹介します。

私たちの実験は、SWD が実際に大きな勾配基準を緩和し、適応モーメント推定 (Adam) の従来の一定重み減衰戦略を大幅に上回ることが多いことも裏付けています。

要約(オリジナル)

Weight decay is a simple yet powerful regularization technique that has been very widely used in training of deep neural networks (DNNs). While weight decay has attracted much attention, previous studies fail to discover some overlooked pitfalls on large gradient norms resulted by weight decay. In this paper, we discover that, weight decay can unfortunately lead to large gradient norms at the final phase (or the terminated solution) of training, which often indicates bad convergence and poor generalization. To mitigate the gradient-norm-centered pitfalls, we present the first practical scheduler for weight decay, called the Scheduled Weight Decay (SWD) method that can dynamically adjust the weight decay strength according to the gradient norm and significantly penalize large gradient norms during training. Our experiments also support that SWD indeed mitigates large gradient norms and often significantly outperforms the conventional constant weight decay strategy for Adaptive Moment Estimation (Adam).

arxiv情報

著者 Zeke Xie,Zhiqiang Xu,Jingzhao Zhang,Issei Sato,Masashi Sugiyama
発行日 2024-08-16 10:36:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク