The shape and simplicity biases of adversarially robust ImageNet-trained CNNs

要約

ここ数年で、人間の視覚と畳み込みニューラル ネットワーク (CNN) の類似点がますます明らかになりました。
しかし、通常の CNN は、人間が優れたパフォーマンスを示す敵対的または分布外 (OOD) の例に一般化するには不十分な場合がよくあります。
敵対的トレーニングは、敵対的および OOD データに対する CNN の堅牢性を向上させるための主要な学習アルゴリズムです。
ただし、プロパティ、特に敵対的に堅牢な CNN 内で学習された形状バイアスと内部機能についてはほとんど知られていません。
このホワイト ペーパーでは、敵対的トレーニングによってトレーニングされた AlexNet、GoogLeNet、および ResNet-50 モデルの一般化を可能にする形状バイアスといくつかの内部メカニズムを理解するために、徹底した体系的な研究を行います。
標準の ImageNet 分類子には強いテクスチャ バイアスがありますが、対応する R 分類子は形状に大きく依存していることがわかります。
驚くべきことに、敵対的トレーニングは、CNN を「堅牢化」する過程で、隠れニューロンに 3 つの単純化バイアスを誘発します。
つまり、R ネットワークの各畳み込みニューロンは、(1) ピクセル単位のより滑らかなパターン、つまり高周波ノイズがネットワークを通過するのをブロックするメカニズムを検出するように変更されることがよくあります。
(2) より低レベルの機能、つまり (オブジェクトの代わりに) テクスチャと色; (3) 入力の種類が少ない。
私たちの調査結果は、ネットワークをより敵対的に堅牢にした興味深いメカニズムを明らかにし、たとえば、Rネットワークがはるかに大きな容量の恩恵を受け(Xie et al. 2020)、画像合成の前に強力な画像として機能できる理由(Santurkar et al.
al. 2019)。

要約(オリジナル)

Increasingly more similarities between human vision and convolutional neural networks (CNNs) have been revealed in the past few years. Yet, vanilla CNNs often fall short in generalizing to adversarial or out-of-distribution (OOD) examples which humans demonstrate superior performance. Adversarial training is a leading learning algorithm for improving the robustness of CNNs on adversarial and OOD data; however, little is known about the properties, specifically the shape bias and internal features learned inside adversarially-robust CNNs. In this paper, we perform a thorough, systematic study to understand the shape bias and some internal mechanisms that enable the generalizability of AlexNet, GoogLeNet, and ResNet-50 models trained via adversarial training. We find that while standard ImageNet classifiers have a strong texture bias, their R counterparts rely heavily on shapes. Remarkably, adversarial training induces three simplicity biases into hidden neurons in the process of ‘robustifying’ CNNs. That is, each convolutional neuron in R networks often changes to detecting (1) pixel-wise smoother patterns, i.e., a mechanism that blocks high-frequency noise from passing through the network; (2) more lower-level features i.e. textures and colors (instead of objects);and (3) fewer types of inputs. Our findings reveal the interesting mechanisms that made networks more adversarially robust and also explain some recent findings e.g., why R networks benefit from a much larger capacity (Xie et al. 2020) and can act as a strong image prior in image synthesis (Santurkar et al. 2019).

arxiv情報

著者 Peijie Chen,Chirag Agarwal,Anh Nguyen
発行日 2022-09-12 13:13:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク