Counterbalancing Teacher: Regularizing Batch Normalized Models for Robustness

要約

バッチ正規化(BN)は、ディープニューラルネットワークを学習する際によく使われる手法であり、より高い精度に到達するためにその収束を加速させる。しかし、我々は、BNが基本的な欠点を伴うことを実証する:それは、モデルが訓練(ドメイン内)データに非常に特異的である低バランス特徴に依存することを奨励し、ドメイン外の例に対する汎化性能を損なうことである。本研究では、この現象を調査し、まず、様々なアーキテクチャにおいてBN層を削除することで、領域内誤差が大きくなる代わりに、領域外誤差と破損誤差が小さくなることを示す。この方法は、BNを取り除いたモデルの凍結コピーを教師として活用し、一貫性損失関数によって重みを大幅に調整することで、生徒のネットワークに頑健な表現を学習させるものである。この正則化信号により、CTは、先行研究のようにターゲット領域からの情報がなくても、不測のデータシフトにうまく対応することができる。また、CIFAR-10-C、CIFAR-100-C、VLCSなどの頑健性ベンチマークにおいて、複数のベースラインよりも優れた性能を示すことで、CTの有効性を実証する。

要約(オリジナル)

Batch normalization (BN) is a ubiquitous technique for training deep neural networks that accelerates their convergence to reach higher accuracy. However, we demonstrate that BN comes with a fundamental drawback: it incentivizes the model to rely on low-variance features that are highly specific to the training (in-domain) data, hurting generalization performance on out-of-domain examples. In this work, we investigate this phenomenon by first showing that removing BN layers across a wide range of architectures leads to lower out-of-domain and corruption errors at the cost of higher in-domain errors. We then propose Counterbalancing Teacher (CT), a method which leverages a frozen copy of the same model without BN as a teacher to enforce the student network’s learning of robust representations by substantially adapting its weights through a consistency loss function. This regularization signal helps CT perform well in unforeseen data shifts, even without information from the target domain as in prior works. We theoretically show in an overparameterized linear regression setting why normalization leads to a model’s reliance on such in-domain features, and empirically demonstrate the efficacy of CT by outperforming several baselines on robustness benchmarks such as CIFAR-10-C, CIFAR-100-C, and VLCS.

arxiv情報

著者 Saeid Asgari Taghanaki,Ali Gholami,Fereshte Khani,Kristy Choi,Linh Tran,Ran Zhang,Aliasghar Khani
発行日 2022-07-04 16:16:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG パーマリンク