PuriDefense: Randomized Local Implicit Adversarial Purification for Defending Black-box Query-based Attacks

要約

ブラックボックス クエリベースの攻撃は、ターゲット モデルのアーキテクチャやパラメーターにアクセスせずに敵対的な例を生成できるため、Machine Learning as a Service (MLaaS) システムにとって重大な脅威となります。
敵対的トレーニング、勾配マスキング、入力変換などの従来の防御メカニズムでは、相当な計算コストがかかるか、非敵対的入力のテスト精度が損なわれます。
これらの課題に対処するために、私たちは、低レベルの推論コストで軽量の浄化モデルのアンサンブルを使用したランダムなパッチごとの浄化を採用する効率的な防御メカニズムである Puri Defense を提案します。
これらのモデルは、ローカルの暗黙的な関数を利用して、自然な画像多様体を再構築します。
私たちの理論分析は、このアプローチが精製にランダム性を組み込むことによってクエリベースの攻撃の収束を遅らせることを示唆しています。
CIFAR-10 と ImageNet に関する広範な実験により、私たちが提案するピュリファイアベースの防御メカニズムの有効性が検証され、クエリベースの攻撃に対する堅牢性が大幅に向上していることが実証されました。

要約(オリジナル)

Black-box query-based attacks constitute significant threats to Machine Learning as a Service (MLaaS) systems since they can generate adversarial examples without accessing the target model’s architecture and parameters. Traditional defense mechanisms, such as adversarial training, gradient masking, and input transformations, either impose substantial computational costs or compromise the test accuracy of non-adversarial inputs. To address these challenges, we propose an efficient defense mechanism, PuriDefense, that employs random patch-wise purifications with an ensemble of lightweight purification models at a low level of inference cost. These models leverage the local implicit function and rebuild the natural image manifold. Our theoretical analysis suggests that this approach slows down the convergence of query-based attacks by incorporating randomness into purifications. Extensive experiments on CIFAR-10 and ImageNet validate the effectiveness of our proposed purifier-based defense mechanism, demonstrating significant improvements in robustness against query-based attacks.

arxiv情報

著者 Ping Guo,Zhiyuan Yang,Xi Lin,Qingchuan Zhao,Qingfu Zhang
発行日 2024-01-19 09:54:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.LG パーマリンク