Defending Against Transfer Attacks From Public Models

要約

敵対的攻撃は、業界において迫りくるものの対処されていない脅威です。
しかし、堅牢性評価に関する文献の 10 年にわたる歴史を通じて、強力な攻撃や最適な攻撃を仕掛けるのは困難であることが分かりました。
機械学習とドメインの専門知識の両方が必要です。
言い換えれば、過去の文献の大多数が宗教的に想定していたホワイトボックス脅威モデルは非現実的です。
このペーパーでは、攻撃者が公的に利用可能なサロゲート モデルを介した転送攻撃に依存する、新しい実用的な脅威モデルを提案します。
私たちは、この設定が将来、セキュリティに敏感なアプリケーションで最も普及するだろうと主張します。
この設定における転送攻撃を評価し、ゲーム理論の観点に基づいて特化した防御方法を提案します。
防御力は、3 つのデータセット (CIFAR-10、CIFAR-100、ImageNet) にわたる 24 の公開モデルと 11 の攻撃アルゴリズムに基づいて評価されます。
この脅威モデルの下では、私たちの防御である PubDef は、通常の精度をほとんど損なうことなく、最先端のホワイトボックスの敵対的トレーニングを大幅に上回っています。
たとえば、ImageNet では、最も強力な転送攻撃の下では、当社の防御は 62% の精度を達成しましたが、敵対的にトレーニングされた最良のモデルではわずか 36% でした。
攻撃を受けていないときの精度は、防御されていないモデルの精度よりわずか 2% 低いだけです (78% 対 80%)。
コードは https://github.com/wagner-group/pubdef でリリースされます。

要約(オリジナル)

Adversarial attacks have been a looming and unaddressed threat in the industry. However, through a decade-long history of the robustness evaluation literature, we have learned that mounting a strong or optimal attack is challenging. It requires both machine learning and domain expertise. In other words, the white-box threat model, religiously assumed by a large majority of the past literature, is unrealistic. In this paper, we propose a new practical threat model where the adversary relies on transfer attacks through publicly available surrogate models. We argue that this setting will become the most prevalent for security-sensitive applications in the future. We evaluate the transfer attacks in this setting and propose a specialized defense method based on a game-theoretic perspective. The defenses are evaluated under 24 public models and 11 attack algorithms across three datasets (CIFAR-10, CIFAR-100, and ImageNet). Under this threat model, our defense, PubDef, outperforms the state-of-the-art white-box adversarial training by a large margin with almost no loss in the normal accuracy. For instance, on ImageNet, our defense achieves 62% accuracy under the strongest transfer attack vs only 36% of the best adversarially trained model. Its accuracy when not under attack is only 2% lower than that of an undefended model (78% vs 80%). We release our code at https://github.com/wagner-group/pubdef.

arxiv情報

著者 Chawin Sitawarin,Jaewon Chang,David Huang,Wesson Altoyan,David Wagner
発行日 2023-10-26 17:58:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.CV, cs.LG パーマリンク