On the Weight Dynamics of Deep Normalized Networks

要約

最近の研究では、ディープ ニューラル ネットワークの層間で有効学習率 (ELR) に大きな差があると、トレーニングの容易性に悪影響を与える可能性があることが示されています。
正規化層を使用してネットワークの重みダイナミクス (予想される勾配と重みノルムの発展) をモデル化し、層ごとの ELR 比の発展を予測することで、これらの差異が時間の経過とともにどのように発展するかを形式化します。
一定の学習率でトレーニングすると、初期勾配の爆発にもかかわらず、ELR 比が 1 に収束することを証明します。
私たちは、ELR の格差が拡大する「臨界学習率」を特定します。これは現在の ELR にのみ依存します。
私たちの発見を検証するために、理論と実践においてELRの広がりを迅速に最小限に抑えることに成功した、ハイパーパラメーターのないウォームアップ方法を考案しました。
私たちの実験では、ELR の広がりとトレーニング可能性が関連付けられています。この関係は、勾配の大きさの変動が大きい非常に深いネットワークで最も顕著です。

要約(オリジナル)

Recent studies have shown that high disparities in effective learning rates (ELRs) across layers in deep neural networks can negatively affect trainability. We formalize how these disparities evolve over time by modeling weight dynamics (evolution of expected gradient and weight norms) of networks with normalization layers, predicting the evolution of layer-wise ELR ratios. We prove that when training with any constant learning rate, ELR ratios converge to 1, despite initial gradient explosion. We identify a “critical learning rate’ beyond which ELR disparities widen, which only depends on current ELRs. To validate our findings, we devise a hyper-parameter-free warm-up method that successfully minimizes ELR spread quickly in theory and practice. Our experiments link ELR spread with trainability, a relationship that is most evident in very deep networks with significant gradient magnitude excursions.

arxiv情報

著者 Christian H. X. Ali Mehmeti-Göpel,Michael Wand
発行日 2024-05-23 16:49:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク