The Disharmony Between BN and ReLU Causes Gradient Explosion, but is Offset by the Correlation Between Activations

要約

タイトル:BNとReLUの不和和が勾配爆発を引き起こすが、活性化間の相関によって相殺される

要約:
– バッチ正規化とReLUに基づく深層ニューラルネットワークは、勾配爆発による高勾配のためにトレーニングの初期段階で不安定になることがある。
– ReLUは、期待よりも分散を減らす効果があり、バッチ正規化は回復時に勾配を増幅させるため、順方向伝播が安定したまま勾配爆発が起こる。
– さらに、ディープニューラルネットワークのダイナミクスがトレーニング中にどのように変化するか、入力間の相関がこの問題を和らげる方法について説明する。
– 最後に、2次最適化アルゴリズムに着想を得たより良い適応型学習率アルゴリズムを提案し、大規模バッチトレーニングで従来の学習率スケーリング手法を上回り、小規模バッチトレーニングでWarmUpを置き換えることができる。

要約(オリジナル)

Deep neural networks based on batch normalization and ReLU-like activation functions can experience instability during the early stages of training due to the high gradient induced by temporal gradient explosion. We explain how ReLU reduces variance more than expected, and how batch normalization amplifies the gradient during recovery, which causes gradient explosion while forward propagation remains stable. Additionally, we discuss how the dynamics of a deep neural network change during training and how the correlation between inputs can alleviate this problem. Lastly, we propose a better adaptive learning rate algorithm inspired by second-order optimization algorithms, which outperforms existing learning rate scaling methods in large batch training and can also replace WarmUp in small batch training.

arxiv情報

著者 Inyoung Paik,Jaesik Choi
発行日 2023-04-27 10:14:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.LG パーマリンク