Exploring the Connection between Robust and Generative Models

要約

タイトル:堅牢モデルと生成モデルのつながりの探索
要約:
1. 堅牢な識別クラス分類器は、敵対的トレーニング(AT)でトレーニングされ、エネルギーベースのモデル(EBM)の形で生成モデリングと接続されることができる。
2. 識別モデルの損失を分解し、識別モデルが入力データ密度も認識することを示すことにより、堅牢な識別クラス分類器とエネルギーベースのモデルを接続する研究を行う。
3. アドバーサリーなポイントは、入力データのマニフォールドを離れるという一般的な仮定があるが、この研究では、意外にも入力空間のアドバーサリーなポイントは、識別クラス分類器に内在する生成モデル内にある可能性が非常に高いことを発見している。
4. この研究は、2つのエビデンスを提示している。1つは、アドバーサリー攻撃が自然データよりもさらに多いこと、そしてもう1つは攻撃の強度が増すにつれて、アドバーサリー攻撃の可能性が増加することである。
5. これにより、我々は簡単にアドバーサリー攻撃を検出し、High-Energy PGDという新しい攻撃を作り出すことができる。この攻撃は、識別クラス分類器を騙し、しかしデータセットと同等のエネルギーを持つ。

要約(オリジナル)

We offer a study that connects robust discriminative classifiers trained with adversarial training (AT) with generative modeling in the form of Energy-based Models (EBM). We do so by decomposing the loss of a discriminative classifier and showing that the discriminative model is also aware of the input data density. Though a common assumption is that adversarial points leave the manifold of the input data, our study finds out that, surprisingly, untargeted adversarial points in the input space are very likely under the generative model hidden inside the discriminative classifier — have low energy in the EBM. We present two evidence: untargeted attacks are even more likely than the natural data and their likelihood increases as the attack strength increases. This allows us to easily detect them and craft a novel attack called High-Energy PGD that fools the classifier yet has energy similar to the data set.

arxiv情報

著者 Senad Beadini,Iacopo Masi
発行日 2023-05-05 09:42:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CR, cs.CV, cs.LG パーマリンク