要約
Natural Adversarial Examples (NAE) は、環境から自然に発生し、分類子を欺くことができる画像であり、トレーニングされたモデルの脆弱性を確実に評価および特定するのに役立ちます。
この研究では、実際の画像から NAE を受動的に収集する以前の研究とは異なり、最先端の安定拡散を使用して NAE を能動的に合成することを提案します。
具体的には、私たちの方法は制御された最適化プロセスを定式化し、指定されたクラスに対応するトークンの埋め込みを撹乱して NAE を生成します。
この生成プロセスは、ターゲット分類器からの損失の勾配によってガイドされ、作成された画像がグラウンドトゥルースクラスを厳密に模倣しながらも分類器を欺くことを保証します。
SD-NAE (Stable Diffusion for Natural Adversarial Examples) と名付けられた当社の革新的な方法は、有効で有用な NAE を生成するのに効果的であり、綿密に設計された実験を通じて実証されています。
コードは https://github.com/linyueqian/SD-NAE で入手できます。
要約(オリジナル)
Natural Adversarial Examples (NAEs), images arising naturally from the environment and capable of deceiving classifiers, are instrumental in robustly evaluating and identifying vulnerabilities in trained models. In this work, unlike prior works that passively collect NAEs from real images, we propose to actively synthesize NAEs using the state-of-the-art Stable Diffusion. Specifically, our method formulates a controlled optimization process, where we perturb the token embedding that corresponds to a specified class to generate NAEs. This generation process is guided by the gradient of loss from the target classifier, ensuring that the created image closely mimics the ground-truth class yet fools the classifier. Named SD-NAE (Stable Diffusion for Natural Adversarial Examples), our innovative method is effective in producing valid and useful NAEs, which is demonstrated through a meticulously designed experiment. Code is available at https://github.com/linyueqian/SD-NAE.
arxiv情報
著者 | Yueqian Lin,Jingyang Zhang,Yiran Chen,Hai Li |
発行日 | 2024-05-14 14:36:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google