要約
転送可能な敵対攻撃は、事前にトレーニングされた代理モデルと既知のラベルスペースからの敵対者を最適化して、未知のブラックボックスモデルをだまします。
したがって、これらの攻撃は、効果的な代理モデルの可用性によって制限されます。
この作業では、この仮定を緩和し、ラベルがなく、データサンプルが少ない条件下で、効果的な代理モデルを最初からトレーニングするための自己教師あり代替手段として、敵対的ピクセル復元を提案します。
私たちのトレーニングアプローチは、敵対的な目的による過剰適合を減らし、より一般化可能な代理モデルに最適化する最小-最大目的に基づいています。
提案された攻撃は、敵対的なピクセルの復元を補完するものであり、自己監視方式で起動できるため、タスク固有の目的とは無関係です。
分類、オブジェクト検出、およびビデオセグメンテーションのタスクについて、ビジョントランスフォーマーおよび畳み込みニューラルネットワークへのアプローチの敵対的な転送可能性を実証することに成功しました。
コードと事前トレーニング済みの代理モデルは、https://github.com/HashmatShadab/APRで入手できます。
要約(オリジナル)
Transferable adversarial attacks optimize adversaries from a pretrained surrogate model and known label space to fool the unknown black-box models. Therefore, these attacks are restricted by the availability of an effective surrogate model. In this work, we relax this assumption and propose Adversarial Pixel Restoration as a self-supervised alternative to train an effective surrogate model from scratch under the condition of no labels and few data samples. Our training approach is based on a min-max objective which reduces overfitting via an adversarial objective and thus optimizes for a more generalizable surrogate model. Our proposed attack is complimentary to our adversarial pixel restoration and is independent of any task specific objective as it can be launched in a self-supervised manner. We successfully demonstrate the adversarial transferability of our approach to Vision Transformers as well as Convolutional Neural Networks for the tasks of classification, object detection, and video segmentation. Our codes & pre-trained surrogate models are available at: https://github.com/HashmatShadab/APR
arxiv情報
著者 | Hashmat Shadab Malik,Shahina K Kunhimon,Muzammal Naseer,Salman Khan,Fahad Shahbaz Khan |
発行日 | 2022-07-18 17:59:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google