Trap and Replace: Defending Backdoor Attacks by Trapping Them into an Easy-to-Replace Subnetwork

要約

ディープ ニューラル ネットワーク (DNN) は、バックドア攻撃に対して脆弱です。
ネットワーク全体がバックドア サンプルの影響を受ける可能性があるため、以前の研究では、ネットワークから望ましくないバックドアの動作を学習しないことは非常に困難であることが示されています。
このホワイト ペーパーでは、モデルからバックドア サンプルの有害な影響をはるかに簡単に除去できる、まったく新しいバックドア防御戦略を提案します。
私たちの防御戦略 \emph{Trap and Replace} は、2 つの段階から構成されています。
第 1 段階では、バックドアをおびき寄せて、小さくて交換しやすいサブネットワークに閉じ込めます。
具体的には、軽量分類ヘッドと共有されるステム ネットワークの上に補助画像再構成ヘッドを追加します。
直観的には、補助的な画像再構成タスクは、学習しやすいが意味的に正しくないバックドア相関に過剰適合するのではなく、学習するのは難しいが意味的に正しい十分な低レベルの視覚的特徴をステム ネットワークに保持することを奨励するということです。
その結果、バックドアが設定されたデータセットでトレーニングを行うと、バックドアは保護されていない分類ヘッドに簡単におびき寄せられます。これは、共有ステムよりもはるかに脆弱であり、ステム ネットワークがほとんど汚染されないためです。
第 2 段階では、ステム ネットワークを修正しながら、汚染されていない軽量の分類ヘッドを汚染されていないものに置き換えます。
その結果、最終的なネットワークのステムと分類ヘッドの両方が、バックドア トレーニング サンプルの影響をほとんど受けません。
10 種類のバックドア攻撃に対する手法を評価します。
私たちの方法は、以前の最先端の方法よりも最大 $20.57\%$、$9.80\%$、$13.72\%$ 攻撃成功率が高く、平均で $3.14\%$、$1.80\%$、$1.21\ 優れています。
CIFAR10、GTSRB、および ImageNet-12 でそれぞれ %$ クリーンな分類精度。
コードはオンラインで入手できます。

要約(オリジナル)

Deep neural networks (DNNs) are vulnerable to backdoor attacks. Previous works have shown it extremely challenging to unlearn the undesired backdoor behavior from the network, since the entire network can be affected by the backdoor samples. In this paper, we propose a brand-new backdoor defense strategy, which makes it much easier to remove the harmful influence of backdoor samples from the model. Our defense strategy, \emph{Trap and Replace}, consists of two stages. In the first stage, we bait and trap the backdoors in a small and easy-to-replace subnetwork. Specifically, we add an auxiliary image reconstruction head on top of the stem network shared with a light-weighted classification head. The intuition is that the auxiliary image reconstruction task encourages the stem network to keep sufficient low-level visual features that are hard to learn but semantically correct, instead of overfitting to the easy-to-learn but semantically incorrect backdoor correlations. As a result, when trained on backdoored datasets, the backdoors are easily baited towards the unprotected classification head, since it is much more vulnerable than the shared stem, leaving the stem network hardly poisoned. In the second stage, we replace the poisoned light-weighted classification head with an untainted one, by re-training it from scratch only on a small holdout dataset with clean samples, while fixing the stem network. As a result, both the stem and the classification head in the final network are hardly affected by backdoor training samples. We evaluate our method against ten different backdoor attacks. Our method outperforms previous state-of-the-art methods by up to $20.57\%$, $9.80\%$, and $13.72\%$ attack success rate and on-average $3.14\%$, $1.80\%$, and $1.21\%$ clean classification accuracy on CIFAR10, GTSRB, and ImageNet-12, respectively. Code is available online.

arxiv情報

著者 Haotao Wang,Junyuan Hong,Aston Zhang,Jiayu Zhou,Zhangyang Wang
発行日 2022-10-12 17:24:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.CV, cs.LG パーマリンク