要約
勾配降下法によって訓練されたバッチ正規化の暗黙的なバイアスを研究します。
バイナリ分類のバッチ正規化を使用して線形モデルを学習すると、勾配降下法は $\exp(-\Omega(\log^2 t))$ の収束率でトレーニング データ上の均一マージン分類器に収束することを示します。
これにより、暗黙的なバイアスの種類と収束率の両方の点で、バッチ正規化を使用した線形モデルとバッチ正規化を使用しない線形モデルが区別されます。
さらに結果を 2 層の単一フィルターの線形畳み込みニューラル ネットワークのクラスに拡張し、バッチ正規化にはパッチごとの均一マージンに対する暗黙的なバイアスがあることを示します。
2 つの例に基づいて、パッチごとの均一マージン分類器が特定の学習問題において最大マージン分類器よりも優れたパフォーマンスを発揮できることを示します。
私たちの結果は、バッチ正規化の理論的理解の向上に貢献します。
要約(オリジナル)
We study the implicit bias of batch normalization trained by gradient descent. We show that when learning a linear model with batch normalization for binary classification, gradient descent converges to a uniform margin classifier on the training data with an $\exp(-\Omega(\log^2 t))$ convergence rate. This distinguishes linear models with batch normalization from those without batch normalization in terms of both the type of implicit bias and the convergence rate. We further extend our result to a class of two-layer, single-filter linear convolutional neural networks, and show that batch normalization has an implicit bias towards a patch-wise uniform margin. Based on two examples, we demonstrate that patch-wise uniform margin classifiers can outperform the maximum margin classifiers in certain learning problems. Our results contribute to a better theoretical understanding of batch normalization.
arxiv情報
著者 | Yuan Cao,Difan Zou,Yuanzhi Li,Quanquan Gu |
発行日 | 2023-07-11 16:31:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google