Et Tu Certifications: Robustness Certificates Yield Better Adversarial Examples

要約

インスタンスの近隣に敵対的な例が存在しないことを保証する際、認証メカニズムはニューラル ネットの堅牢性を実証する上で重要な役割を果たします。
このペーパーでは、これらの認証が、保護に役立つモデル自体を侵害する可能性があるかどうかを尋ねます。
当社の新しい \emph{Certification Aware Attack} は、証明書を悪用して、計算効率の高いノルムを最小化する敵対的な例を同等の攻撃よりも $74 \%$ 多く生成し、同時に摂動ノルムの中央値を $10\%$ 以上削減します。
これらの攻撃は、認証の制限の厳しさを評価するために使用できますが、認証によってセキュリティが低下する可能性があるという明らかな矛盾も浮き彫りにします。

要約(オリジナル)

In guaranteeing the absence of adversarial examples in an instance’s neighbourhood, certification mechanisms play an important role in demonstrating neural net robustness. In this paper, we ask if these certifications can compromise the very models they help to protect? Our new \emph{Certification Aware Attack} exploits certifications to produce computationally efficient norm-minimising adversarial examples $74 \%$ more often than comparable attacks, while reducing the median perturbation norm by more than $10\%$. While these attacks can be used to assess the tightness of certification bounds, they also highlight an apparent paradox — that certifications can reduce security.

arxiv情報

著者 Andrew C. Cullen,Shijie Liu,Paul Montague,Sarah M. Erfani,Benjamin I. P. Rubinstein
発行日 2024-02-26 08:28:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG, I.2.6 パーマリンク