要約
本研究では、ウェイト減衰がディープニューラルネットワークの個々のニューロンの更新挙動にどのような影響を与えるかを、応用解析と実験の組み合わせによって調べる。ウェイト減衰は、ニューロンのウェイトベクトルの予想される大きさと角度の更新を、回転平衡と呼ぶ定常状態に収束させる。このような状態は非常に均質であり、異なる層やニューロン間で平均回転–有効学習率の代理–のバランスを効果的にとることができる。私たちの研究は、Adam、Lion、SGDのようなオプティマイザーのこれらのダイナミクスを勢いよく分析し、ディープラーニングにおいて広く使われているがあまり理解されていない手法の有効性を解明する、トレーニングに関する新しいシンプルな視点を提供する。我々は、バランスのとれた回転が、重み標準化のような正規化の有効性と、L2正則化を伴うAdamW over Adamの有効性において、いかに重要な役割を果たすかを実証する。最後に、回転を明示的に制御することで、学習速度のウォームアップの必要性を大幅に減らしつつ、重み減衰の利点を提供することを示す。
要約(オリジナル)
This study investigates how weight decay affects the update behavior of individual neurons in deep neural networks through a combination of applied analysis and experimentation. Weight decay can cause the expected magnitude and angular updates of a neuron’s weight vector to converge to a steady state we call rotational equilibrium. These states can be highly homogeneous, effectively balancing the average rotation — a proxy for the effective learning rate — across different layers and neurons. Our work analyzes these dynamics across optimizers like Adam, Lion, and SGD with momentum, offering a new simple perspective on training that elucidates the efficacy of widely used but poorly understood methods in deep learning. We demonstrate how balanced rotation plays a key role in the effectiveness of normalization like Weight Standardization, as well as that of AdamW over Adam with L2-regularization. Finally, we show that explicitly controlling the rotation provides the benefits of weight decay while substantially reducing the need for learning rate warmup.
arxiv情報
著者 | Atli Kosson,Bettina Messmer,Martin Jaggi |
発行日 | 2024-06-03 15:57:47+00:00 |
arxivサイト | arxiv_id(pdf) |