要約
敵対的にロバストな分類器は、非ロバスト モデルにはない特性、つまり Perceptually Aligned Gradients (PAG) を備えています。
入力に対するその勾配は人間の知覚とよく一致します。
いくつかの研究では、PAG が強力なトレーニングの副産物であると特定されていますが、PAG を独立した現象として考慮したり、それ自体の影響を研究したりするものはありません。
この研究では、この特性に焦点を当て、\emph{知覚的に整列したグラデーションがロバスト性を暗示する}かどうかをテストします。
この目的を達成するために、私たちは分類器のトレーニングで PAG を直接促進する新しい目的を開発し、そのような勾配を持つモデルが敵対的攻撃に対してより堅牢であるかどうかを検証します。
複数のデータセットとアーキテクチャに関する広範な実験により、勾配が揃ったモデルが顕著な堅牢性を示すことが検証され、PAG と堅牢性の間の驚くべき双方向の関係が明らかになりました。
最後に、勾配の調整が改善されると堅牢性が向上することを示し、この観察を利用して既存の敵対的トレーニング手法の堅牢性を向上させます。
要約(オリジナル)
Adversarially robust classifiers possess a trait that non-robust models do not — Perceptually Aligned Gradients (PAG). Their gradients with respect to the input align well with human perception. Several works have identified PAG as a byproduct of robust training, but none have considered it as a standalone phenomenon nor studied its own implications. In this work, we focus on this trait and test whether \emph{Perceptually Aligned Gradients imply Robustness}. To this end, we develop a novel objective to directly promote PAG in training classifiers and examine whether models with such gradients are more robust to adversarial attacks. Extensive experiments on multiple datasets and architectures validate that models with aligned gradients exhibit significant robustness, exposing the surprising bidirectional connection between PAG and robustness. Lastly, we show that better gradient alignment leads to increased robustness and harness this observation to boost the robustness of existing adversarial training techniques.
arxiv情報
著者 | Roy Ganz,Bahjat Kawar,Michael Elad |
発行日 | 2023-08-09 17:06:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google