Spectral Batch Normalization: Normalization in the Frequency Domain

要約

正則化は、ディープ ニューラル ネットワークの汎化能力を向上させるために使用される一連の手法です。
この論文では、周波数 (スペクトル) ドメインで特徴マップを正規化することで一般化を改善する新しい効果的な方法であるスペクトル バッチ正規化 (SBN) を紹介します。
バッチ正規化 (BN) を使用しない残留ネットワークのアクティブ化は、初期化時にネットワークの深さで指数関数的に爆発する傾向があります。
これにより、パラメーターが比較的小さい場合でも、非常に大きな特徴マップノルムが得られます。
このような爆発的なダイナミクスは、学習に非常に悪影響を与える可能性があります。
BN は、スケーリング係数 $\gamma, \beta$ の重み減衰正則化を、特徴マップのノルムに対する加算ペナルティとほぼ同等にし、極端に大きな特徴マップのノルムをある程度防止します。
ただし、BN のおおよその加算ペナルティにもかかわらず、ディープ ニューラル ネットワーク (DNN) の特徴マップはネットワークの開始時に爆発する傾向があり、DNN の特徴マップにはトレーニング全体を通じて大きな値が含まれることが実験的に示されています。
この現象は、非残留ネットワークでも弱まった形で発生します。
SBN は、周波数領域で正規化することで大きな特徴マップに対処します。
私たちの実験では、SBN が初期化時の特徴マップの爆発やトレーニング中の大きな特徴マップ値を防ぐことを経験的に示しています。
さらに、周波数領域での特徴マップの正規化により、周波数成分がより均一に分散されます。
これにより、DNN が特徴マップの単一周波数成分に依存することがなくなります。
これらは、SBN の他の効果とともに、残差ネットワークと非残差ネットワークのトレーニングに正則化効果をもたらします。
標準的な正則化手法に加えて SBN を使用すると、DNN のパフォーマンスが適切なマージンで向上することが実験的に示されています。
ImageNet の ResNet50 は 0.71% 増加しました。

要約(オリジナル)

Regularization is a set of techniques that are used to improve the generalization ability of deep neural networks. In this paper, we introduce spectral batch normalization (SBN), a novel effective method to improve generalization by normalizing feature maps in the frequency (spectral) domain. The activations of residual networks without batch normalization (BN) tend to explode exponentially in the depth of the network at initialization. This leads to extremely large feature map norms even though the parameters are relatively small. These explosive dynamics can be very detrimental to learning. BN makes weight decay regularization on the scaling factors $\gamma, \beta$ approximately equivalent to an additive penalty on the norm of the feature maps, which prevents extremely large feature map norms to a certain degree. However, we show experimentally that, despite the approximate additive penalty of BN, feature maps in deep neural networks (DNNs) tend to explode at the beginning of the network and that feature maps of DNNs contain large values during the whole training. This phenomenon also occurs in a weakened form in non-residual networks. SBN addresses large feature maps by normalizing them in the frequency domain. In our experiments, we empirically show that SBN prevents exploding feature maps at initialization and large feature map values during the training. Moreover, the normalization of feature maps in the frequency domain leads to more uniform distributed frequency components. This discourages the DNNs to rely on single frequency components of feature maps. These, together with other effects of SBN, have a regularizing effect on the training of residual and non-residual networks. We show experimentally that using SBN in addition to standard regularization methods improves the performance of DNNs by a relevant margin, e.g. ResNet50 on ImageNet by 0.71%.

arxiv情報

著者 Rinor Cakaj,Jens Mehnert,Bin Yang
発行日 2023-06-29 14:59:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク