Universal Backdoor Attacks Detection via Adaptive Adversarial Probe

要約

ディープ ニューラル ネットワーク (DNN) がバックドア攻撃に対して脆弱であることを示す広範な証拠があり、これがバックドア攻撃検出の開発の動機となっています。
ほとんどの検出方法は、モデルが推定されるタイプのバックドア攻撃に感染しているかどうかを検証するように設計されていますが、攻撃者は実際には、防御側にとって予期しないさまざまなバックドア攻撃を生成する可能性が高く、現在の検出戦略に挑戦しています。
このホワイト ペーパーでは、このより困難なシナリオに焦点を当て、適応型敵対的プローブ (A2P) という名前の普遍的なバックドア攻撃検出方法を提案します。
具体的には、普遍的なバックドア攻撃の検出の課題は、さまざまなバックドア攻撃がトリガー パターン (つまり、サイズと透過性) でさまざまな特性を示すことが多いという事実にあると考えています。
そのため、当社の A2P はグローバルからローカルへのプロービング フレームワークを採用しています。これは、さまざまなサイズ/透明度のさまざまなバックドア トリガーに適合するように、適応領域/予算を使用して画像を敵対的にプロービングします。
プロービング領域に関しては、トリガー領域はしばしばより高いモデルの活性化を示すため、ターゲットモデルの注意に基づいて異なるサイズ/場所の領域提案を生成する注意誘導領域生成戦略を提案します。
攻撃バジェットを考慮して、ボックスからスパース制約への摂動バジェットを繰り返し増加させるボックスからスパースへのスケジューリングを導入し、異なる透過性を持つさまざまな潜在的なバックドアをより適切にアクティブ化できるようにします。
複数のデータセット (CIFAR-10、GTSRB、Tiny-ImageNet) での広範な実験により、私たちの方法が最先端のベースラインよりも大きな差 (+12%) で優れていることが実証されました。

要約(オリジナル)

Extensive evidence has demonstrated that deep neural networks (DNNs) are vulnerable to backdoor attacks, which motivates the development of backdoor attacks detection. Most detection methods are designed to verify whether a model is infected with presumed types of backdoor attacks, yet the adversary is likely to generate diverse backdoor attacks in practice that are unforeseen to defenders, which challenge current detection strategies. In this paper, we focus on this more challenging scenario and propose a universal backdoor attacks detection method named Adaptive Adversarial Probe (A2P). Specifically, we posit that the challenge of universal backdoor attacks detection lies in the fact that different backdoor attacks often exhibit diverse characteristics in trigger patterns (i.e., sizes and transparencies). Therefore, our A2P adopts a global-to-local probing framework, which adversarially probes images with adaptive regions/budgets to fit various backdoor triggers of different sizes/transparencies. Regarding the probing region, we propose the attention-guided region generation strategy that generates region proposals with different sizes/locations based on the attention of the target model, since trigger regions often manifest higher model activation. Considering the attack budget, we introduce the box-to-sparsity scheduling that iteratively increases the perturbation budget from box to sparse constraint, so that we could better activate different latent backdoors with different transparencies. Extensive experiments on multiple datasets (CIFAR-10, GTSRB, Tiny-ImageNet) demonstrate that our method outperforms state-of-the-art baselines by large margins (+12%).

arxiv情報

著者 Yuhang Wang,Huafeng Shi,Rui Min,Ruijia Wu,Siyuan Liang,Yichao Wu,Ding Liang,Aishan Liu
発行日 2022-12-07 15:45:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.CV パーマリンク