Adaptive Perturbation Generation for Multiple Backdoors Detection

要約

ディープ ニューラル ネットワーク (DNN) がバックドア攻撃に対して脆弱であることを示す広範な証拠があり、これがバックドア検出方法の開発の動機となっています。
既存のバックドア検出方法は通常、個々の特定のタイプ (パッチベースまたは摂動ベースなど) のバックドア攻撃に合わせて調整されています。
ただし、攻撃者は実際には複数のタイプのバックドア攻撃を生成する可能性が高く、現在の検出戦略に挑戦しています。
敵対的摂動はトリガーパターンと高度に相関しているという事実に基づいて、このホワイトペーパーでは、敵対的摂動を適応的に注入することにより、複数のタイプのバックドア攻撃を検出するための適応的摂動生成 (APG) フレームワークを提案します。
さまざまなトリガー パターンが、同じ敵対的摂動の下で非常に多様な動作を示すことが判明したため、最初に、地域と攻撃の予算を調整することで、複数のタイプのバックドア トリガーに適合するグローバルからローカルへの戦略を設計します。
摂動注入の効率をさらに高めるために、勾配誘導マスク生成戦略を導入して、敵対的攻撃に最適な領域を検索します。
複数のデータセット (CIFAR-10、GTSRB、Tiny-ImageNet) で実施された広範な実験は、私たちの方法が最先端のベースラインよりも大幅に優れていることを示しています (+12%)。

要約(オリジナル)

Extensive evidence has demonstrated that deep neural networks (DNNs) are vulnerable to backdoor attacks, which motivates the development of backdoor detection methods. Existing backdoor detection methods are typically tailored for backdoor attacks with individual specific types (e.g., patch-based or perturbation-based). However, adversaries are likely to generate multiple types of backdoor attacks in practice, which challenges the current detection strategies. Based on the fact that adversarial perturbations are highly correlated with trigger patterns, this paper proposes the Adaptive Perturbation Generation (APG) framework to detect multiple types of backdoor attacks by adaptively injecting adversarial perturbations. Since different trigger patterns turn out to show highly diverse behaviors under the same adversarial perturbations, we first design the global-to-local strategy to fit the multiple types of backdoor triggers via adjusting the region and budget of attacks. To further increase the efficiency of perturbation injection, we introduce a gradient-guided mask generation strategy to search for the optimal regions for adversarial attacks. Extensive experiments conducted on multiple datasets (CIFAR-10, GTSRB, Tiny-ImageNet) demonstrate that our method outperforms state-of-the-art baselines by large margins(+12%).

arxiv情報

著者 Yuhang Wang,Huafeng Shi,Rui Min,Ruijia Wu,Siyuan Liang,Yichao Wu,Ding Liang,Aishan Liu
発行日 2022-09-12 13:37:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.CV パーマリンク