要約
我々は、敵対的訓練(AT)で訓練された頑健な識別分類器を、エネルギーベースモデル(EBM)の形で生成的モデリングと結びつける研究を提供する。これは、識別分類器の損失を分解し、識別モデルが入力データ密度も意識していることを示すことで実現する。一般に、敵対的な点は入力データの多様体から離れると仮定されるが、我々の研究では、驚くべきことに、入力空間におけるターゲット外の敵対的な点は、識別分類器に隠された生成モデルの下で、EBMにおいて低エネルギーである可能性が非常に高いことが判明した。つまり、ターゲット外の攻撃は、自然データよりもさらに可能性が高く、その可能性は攻撃強度が高くなるにつれて高くなるという2つの証拠を提示した。このため、これらの攻撃を容易に検出することができ、分類器を欺きながらもデータセットに近いエネルギーを持つ、高エネルギーPGDという新しい攻撃を作ることができます。コードはgithub.com/senad96/Robust-Generativeで公開されています。
要約(オリジナル)
We offer a study that connects robust discriminative classifiers trained with adversarial training (AT) with generative modeling in the form of Energy-based Models (EBM). We do so by decomposing the loss of a discriminative classifier and showing that the discriminative model is also aware of the input data density. Though a common assumption is that adversarial points leave the manifold of the input data, our study finds out that, surprisingly, untargeted adversarial points in the input space are very likely under the generative model hidden inside the discriminative classifier — have low energy in the EBM. We present two evidence: untargeted attacks are even more likely than the natural data and their likelihood increases as the attack strength increases. This allows us to easily detect them and craft a novel attack called High-Energy PGD that fools the classifier yet has energy similar to the data set. The code is available at github.com/senad96/Robust-Generative
arxiv情報
| 著者 | Senad Beadini,Iacopo Masi |
| 発行日 | 2023-06-05 15:23:05+00:00 |
| arxivサイト | arxiv_id(pdf) |