FMT: Removing Backdoor Feature Maps via Feature Map Testing in Deep Neural Networks

要約

ディープ ニューラル ネットワークは、自動運転車や医療診断など、多くの重要なアプリケーションで広く使用されています。
しかし、そのセキュリティは、特定のトレーニング データに人為的なパターンを追加することによって達成されるバックドア攻撃によって脅かされています。
既存の防御戦略は主に、リバース エンジニアリングを使用して攻撃者によって生成されたバックドア トリガーを再現し、その後トリガーを入力に追加し、グラウンド トゥルース ラベルでモデルを微調整することで DNN モデルを修復することに重点を置いています。
ただし、攻撃者が生成したトリガーが複雑で目に見えないものになると、防御者はトリガーをうまく再現できなくなります。
その結果、トリガーが効果的に削除されないため、DNN モデルは修復されません。
この研究では、Feature Map Testing~(FMT)を提案します。
バックドア トリガーの再現に焦点を当てた既存の防御戦略とは異なり、FMT は入力からバックドア情報を抽出するように訓練されたバックドア特徴マップの検出を試みます。
これらのバックドア特徴マップを検出した後、FMT はそれらを消去し、トレーニング データの安全なサブセットを使用してモデルを微調整します。
私たちの実験では、既存の防御戦略と比較して、FMT は最も複雑で目に見えない攻撃トリガーに対しても攻撃成功率 (ASR) を効果的に低下させることができることを実証しています。
第 2 に、低いロバスト精度 (つまり、汚染されたデータに対するモデルの精度) を示す傾向がある従来の防御方法とは異なり、FMT はより高い RA を達成し、バックドア攻撃の影響を軽減しながらモデルのパフォーマンスを維持する点で優れていることを示しています (例: FMT は CIFAR10 で 87.40% の RA を取得)。
第三に、既存の特徴マップ プルーニング技術と比較して、FMT はより多くのバックドア特徴マップをカバーできます (たとえば、FMT は CIFAR10 \& BadNet シナリオのモデルからバックドア特徴マップの 83.33\% を削除します)。

要約(オリジナル)

Deep neural networks have been widely used in many critical applications, such as autonomous vehicles and medical diagnosis. However, their security is threatened by backdoor attack, which is achieved by adding artificial patterns to specific training data. Existing defense strategies primarily focus on using reverse engineering to reproduce the backdoor trigger generated by attackers and subsequently repair the DNN model by adding the trigger into inputs and fine-tuning the model with ground-truth labels. However, once the trigger generated by the attackers is complex and invisible, the defender can not successfully reproduce the trigger. Consequently, the DNN model will not be repaired since the trigger is not effectively removed. In this work, we propose Feature Map Testing~(FMT). Different from existing defense strategies, which focus on reproducing backdoor triggers, FMT tries to detect the backdoor feature maps, which are trained to extract backdoor information from the inputs. After detecting these backdoor feature maps, FMT will erase them and then fine-tune the model with a secure subset of training data. Our experiments demonstrate that, compared to existing defense strategies, FMT can effectively reduce the Attack Success Rate (ASR) even against the most complex and invisible attack triggers. Second, unlike conventional defense methods that tend to exhibit low Robust Accuracy (i.e., the model’s accuracy on the poisoned data), FMT achieves higher RA, indicating its superiority in maintaining model performance while mitigating the effects of backdoor attacks~(e.g., FMT obtains 87.40\% RA in CIFAR10). Third, compared to existing feature map pruning techniques, FMT can cover more backdoor feature maps~(e.g., FMT removes 83.33\% of backdoor feature maps from the model in the CIFAR10 \& BadNet scenario).

arxiv情報

著者 Dong Huang,Qingwen Bu,Yahao Qing,Yichao Fu,Heming Cui
発行日 2023-07-21 13:17:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SE パーマリンク