Rotational Equilibrium: How Weight Decay Balances Learning Across Neural Networks

要約

この研究では、応用解析と実験を組み合わせて、重みの減衰がディープ ニューラル ネットワーク内の個々のニューロンの更新動作にどのような影響を与えるかを調査します。
重みの減衰により、ニューロンの重みベクトルの予想される大きさと角度の更新が、回転平衡と呼ばれる定常状態に収束する可能性があります。
これらの状態は非常に均質であり、さまざまな層やニューロンにわたって平均回転 (有効学習率の代用) のバランスを効果的にとることができます。
私たちの研究では、Adam、Lion、SGD などのオプティマイザー全体でこれらのダイナミクスを勢いよく分析し、ディープ ラーニングで広く使用されているものの十分に理解されていない手法の有効性を解明する、トレーニングに関する新しいシンプルな視点を提供しています。
バランスの取れた回転が、重み標準化などの正規化の有効性、および L2 正則化を使用した Adam に対する AdamW の有効性においてどのように重要な役割を果たすかを示します。
最後に、回転を明示的に制御すると、学習率のウォームアップの必要性が大幅に軽減されながら、重み減衰の利点がもたらされることを示します。

要約(オリジナル)

This study investigates how weight decay affects the update behavior of individual neurons in deep neural networks through a combination of applied analysis and experimentation. Weight decay can cause the expected magnitude and angular updates of a neuron’s weight vector to converge to a steady state we call rotational equilibrium. These states can be highly homogeneous, effectively balancing the average rotation — a proxy for the effective learning rate — across different layers and neurons. Our work analyzes these dynamics across optimizers like Adam, Lion, and SGD with momentum, offering a new simple perspective on training that elucidates the efficacy of widely used but poorly understood methods in deep learning. We demonstrate how balanced rotation plays a key role in the effectiveness of normalization like Weight Standardization, as well as that of AdamW over Adam with L2-regularization. Finally, we show that explicitly controlling the rotation provides the benefits of weight decay while substantially reducing the need for learning rate warmup.

arxiv情報

著者 Atli Kosson,Bettina Messmer,Martin Jaggi
発行日 2024-02-21 18:44:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク