要約
バックドア攻撃は、ディープ ニューラル ネットワーク (DNN) に対する深刻なセキュリティ上の脅威と考えられています。
信頼できないトレーニング データセットから汚染されたサンプルをフィルタリングして除去することを目的とした汚染サンプル検出 (PSD) は、データ ポイズニング ベースのバックドア攻撃に対する防御において非常に有望なパフォーマンスを示しています。
ただし、ポイズニング率が低い場合やトリガー強度が弱い場合など、弱いバックドア攻撃に直面した場合、多くの高度な手法の検出パフォーマンスが不安定になる可能性が高いことが観察されています。
この観察をさらに検証するために、さまざまなバックドア攻撃と汚染されたサンプルの検出について統計調査を行い、バックドアの効果と検出パフォーマンスの間に正の相関があることを示しました。
これにより、バックドア効果を強化して検出パフォーマンスを向上させることができます。
ポイズニング比やトリガー強度を直接操作してその目標を達成することはできないため、バニラ トレーニング アルゴリズムではなく、Sharpness-Aware Minimization (SAM) アルゴリズムを使用して 1 つのモデルをトレーニングすることを提案します。
また、SAM トレーニングがバックドア効果をどのように強化するかについて、実証的分析と理論的分析の両方を提供します。
次に、この SAM トレーニング済みモデルは、SAM 拡張 PSD と呼ばれる、検出用にトレーニング済みモデルから識別特徴を抽出する既製の PSD 手法とシームレスに統合できます。
いくつかのベンチマーク データセットに対する広範な実験により、弱いバックドア攻撃と強力なバックドア攻撃の両方に対する提案手法の信頼性の高い検出パフォーマンスが示され、さまざまな攻撃に対して大幅な改善 (平均 $+34.38\%$ TPR) があり、従来の PSD 手法 (つまり、
SAM の強化)。
全体として、この研究は PSD に関する新たな洞察を提供し、既存の検出方法を補完できる新しいアプローチを提案するものであり、この分野でのより深い探究を促す可能性があります。
要約(オリジナル)
Backdoor attack has been considered as a serious security threat to deep neural networks (DNNs). Poisoned sample detection (PSD) that aims at filtering out poisoned samples from an untrustworthy training dataset has shown very promising performance for defending against data poisoning based backdoor attacks. However, we observe that the detection performance of many advanced methods is likely to be unstable when facing weak backdoor attacks, such as low poisoning ratio or weak trigger strength. To further verify this observation, we make a statistical investigation among various backdoor attacks and poisoned sample detections, showing a positive correlation between backdoor effect and detection performance. It inspires us to strengthen the backdoor effect to enhance detection performance. Since we cannot achieve that goal via directly manipulating poisoning ratio or trigger strength, we propose to train one model using the Sharpness-Aware Minimization (SAM) algorithm, rather than the vanilla training algorithm. We also provide both empirical and theoretical analysis about how SAM training strengthens the backdoor effect. Then, this SAM trained model can be seamlessly integrated with any off-the-shelf PSD method that extracts discriminative features from the trained model for detection, called SAM-enhanced PSD. Extensive experiments on several benchmark datasets show the reliable detection performance of the proposed method against both weak and strong backdoor attacks, with significant improvements against various attacks ($+34.38\%$ TPR on average), over the conventional PSD methods (i.e., without SAM enhancement). Overall, this work provides new insights about PSD and proposes a novel approach that can complement existing detection methods, which may inspire more in-depth explorations in this field.
arxiv情報
著者 | Mingda Zhang,Mingli Zhu,Zihao Zhu,Baoyuan Wu |
発行日 | 2024-11-18 12:35:08+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google