要約
回避攻撃 (EA) は、入力データを歪めてモデルを誤った分類に誘導することにより、訓練されたニューラル ネットワークの堅牢性をテストするために使用されます。
これらの攻撃を作成することは、特にモデルとデータセットがますます複雑になる中で、困難な作業です。
この研究では、目に見えないブラックボックス設定向けに設計された、敵対的な例を生成するための自己監視型で計算効率の高い方法を紹介します。
表現学習からの技術を適応させた私たちの方法は、データ分布に似るように奨励される多様体上の EA を生成します。
これらの攻撃は、トレーニングに使用されたモデルを攻撃する場合には最先端の攻撃と比較して有効性が同等ですが、攻撃がモデル自体ではなくデータに関連しているため、目に見えないモデルを攻撃する場合には大幅に効果的です。
私たちの実験では、この手法がさまざまなモデル、目に見えないデータ カテゴリ、さらには防御されたモデルにわたって効果的であることが一貫して実証されており、目に見えないモデルをターゲットとする場合、多様体上の EA が重要な役割を果たすことが示唆されています。
要約(オリジナル)
Evasion Attacks (EA) are used to test the robustness of trained neural networks by distorting input data to misguide the model into incorrect classifications. Creating these attacks is a challenging task, especially with the ever-increasing complexity of models and datasets. In this work, we introduce a self-supervised, computationally economical method for generating adversarial examples, designed for the unseen black-box setting. Adapting techniques from representation learning, our method generates on-manifold EAs that are encouraged to resemble the data distribution. These attacks are comparable in effectiveness compared to the state-of-the-art when attacking the model trained on, but are significantly more effective when attacking unseen models, as the attacks are more related to the data rather than the model itself. Our experiments consistently demonstrate the method is effective across various models, unseen data categories, and even defended models, suggesting a significant role for on-manifold EAs when targeting unseen models.
arxiv情報
著者 | Ofir Bar Tal,Adi Haviv,Amit H. Bermano |
発行日 | 2023-10-05 17:34:47+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google