要約
重み減衰は、大規模な言語モデルを含む最先端のディープ ネットワークをトレーニングするために広く使用されている手法です。
広く使用されているにもかかわらず、その役割はまだよく理解されていません。
この研究では、現代の深層学習における重み減衰の役割が、古典的な学習理論で研究されている正則化効果とは異なることを強調します。
過剰パラメータ化されたディープネットワークについては、重みの減衰が最適化ダイナミクスをどのように変更し、損失安定化メカニズムを介して常に存在する SGD の暗黙的な正則化を強化するかを示します。
対照的に、ほぼオンラインの SGD でトレーニングされた過小パラメータ化された大規模言語モデルの場合、重みの減衰がどのように確率的最適化におけるバイアスと分散のトレードオフのバランスを取り、トレーニング損失の低減につながるかを説明します。
さらに、重みの減衰により、LLM トレーニングに重要なツールである bfloat16 混合精度トレーニングの突然の損失発散も防止されることを示します。
全体として、ビジョン タスクに関する ResNets から LLM への統一的な視点を提示します。つまり、重み減衰は明示的な正則化としては決して役に立ちませんが、代わりにトレーニング ダイナミクスを望ましい方法で変更します。
私たちのコードは https://github.com/tml-epfl/why-weight-decay で入手できます。
要約(オリジナル)
Weight decay is a broadly used technique for training state-of-the-art deep networks, including large language models. Despite its widespread usage, its role remains poorly understood. In this work, we highlight that the role of weight decay in modern deep learning is different from its regularization effect studied in classical learning theory. For overparameterized deep networks, we show how weight decay modifies the optimization dynamics enhancing the ever-present implicit regularization of SGD via the loss stabilization mechanism. In contrast, for underparameterized large language models trained with nearly online SGD, we describe how weight decay balances the bias-variance tradeoff in stochastic optimization leading to lower training loss. Moreover, we show that weight decay also prevents sudden loss divergences for bfloat16 mixed-precision training which is a crucial tool for LLM training. Overall, we present a unifying perspective from ResNets on vision tasks to LLMs: weight decay is never useful as an explicit regularizer but instead changes the training dynamics in a desirable way. Our code is available at https://github.com/tml-epfl/why-weight-decay.
arxiv情報
著者 | Maksym Andriushchenko,Francesco D’Angelo,Aditya Varre,Nicolas Flammarion |
発行日 | 2023-10-06 17:58:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google