An Extended Study of Human-like Behavior under Adversarial Training

要約

ニューラル ネットワークには多くの欠点があります。
最も深刻なものの 1 つは、分布の変化に対する感度です。これにより、入力に対する小さな摂動によってモデルが簡単にだまされて、人間には知覚できないことが多く、意味的な意味を持たなくてもよい入力が得られます。
敵対的トレーニングは、最悪の場合の摂動でモデルをトレーニングすることにより、この問題に対処するための部分的な解決策をもたらします。
しかし、最近の研究では、ニューラル ネットワークの推論が人間とは異なることも指摘されています。
人間は形状によってオブジェクトを識別しますが、ニューラル ネットワークは主にテクスチャ キューを使用します。
例として、写真でトレーニングされたモデルは、スケッチを含むデータセットへの一般化に失敗する可能性があります。
興味深いことに、敵対的トレーニングが形状バイアスへのシフトを有利に増加させるように見えることも示されました。
この作業では、この観察結果を再検討し、さまざまなアーキテクチャ、一般的な $\ell_2$ および $\ell_\infty$ トレーニング、および Transformer ベースのモデルに対するこの影響の広範な分析を提供します。
さらに、周波数の観点からこの現象の可能な説明を提供します。

要約(オリジナル)

Neural networks have a number of shortcomings. Amongst the severest ones is the sensitivity to distribution shifts which allows models to be easily fooled into wrong predictions by small perturbations to inputs that are often imperceivable to humans and do not have to carry semantic meaning. Adversarial training poses a partial solution to address this issue by training models on worst-case perturbations. Yet, recent work has also pointed out that the reasoning in neural networks is different from humans. Humans identify objects by shape, while neural nets mainly employ texture cues. Exemplarily, a model trained on photographs will likely fail to generalize to datasets containing sketches. Interestingly, it was also shown that adversarial training seems to favorably increase the shift toward shape bias. In this work, we revisit this observation and provide an extensive analysis of this effect on various architectures, the common $\ell_2$- and $\ell_\infty$-training, and Transformer-based models. Further, we provide a possible explanation for this phenomenon from a frequency perspective.

arxiv情報

著者 Paul Gavrikov,Janis Keuper,Margret Keuper
発行日 2023-03-22 15:47:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク