The Victim and The Beneficiary: Exploiting a Poisoned Model to Train a Clean Model on Poisoned Data

要約

最近、バックドア攻撃がディープ ニューラル ネットワーク (DNN) のトレーニング プロセスに重大なセキュリティ上の脅威をもたらしています。
攻撃されたモデルは、良性のサンプルに対しては通常どおり動作しますが、トリガーが存在すると特定の結果を出力します。
ただし、バックドア攻撃の急速な進歩と比較すると、既存の防御ではこれらの脅威に効果的に対処することが困難であったり、機能するには無害なサンプルが必要であり、実際のシナリオでは利用できない可能性があります。
この論文では、予測エントロピーを使用して、汚染されたサンプルと良性のサンプルを区別できることを発見しました。
これは、新しいデュアルネットワーク トレーニング フレームワークである被害者と受益者 (V&B) を提案するきっかけとなりました。これは、有害なモデルを利用して、余分な良性のサンプルを使用せずにクリーンなモデルをトレーニングします。
まず、Victim ネットワークを犠牲にして、疑わしいサンプルについてトレーニングすることで、強力な毒物サンプル検出器として機能させます。
次に、バックドア インジェクションを阻止するために、被害者が選択した信頼できるサンプルに基づいて受益者ネットワークをトレーニングします。
第三に、潜在的なバックドアを消去し、モデルのパフォーマンスを向上させるために、半教師あり抑制戦略が採用されています。
さらに、汚染されたサンプルの見逃しをより効果的に防止するために、私たちが提案する V&B フレームワークとうまく機能する強力なデータ拡張手法である Attending Mix を提案します。
6 つの最先端の攻撃に対する 2 つの広く使用されているデータセットに対する広範な実験により、私たちのフレームワークがバックドア インジェクションの防止に効果的であり、無害なサンプルでのパフォーマンスを維持しながらさまざまな攻撃に対して堅牢であることが実証されました。
私たちのコードは https://github.com/Zixuan-Zhu/VaB で入手できます。

要約(オリジナル)

Recently, backdoor attacks have posed a serious security threat to the training process of deep neural networks (DNNs). The attacked model behaves normally on benign samples but outputs a specific result when the trigger is present. However, compared with the rocketing progress of backdoor attacks, existing defenses are difficult to deal with these threats effectively or require benign samples to work, which may be unavailable in real scenarios. In this paper, we find that the poisoned samples and benign samples can be distinguished with prediction entropy. This inspires us to propose a novel dual-network training framework: The Victim and The Beneficiary (V&B), which exploits a poisoned model to train a clean model without extra benign samples. Firstly, we sacrifice the Victim network to be a powerful poisoned sample detector by training on suspicious samples. Secondly, we train the Beneficiary network on the credible samples selected by the Victim to inhibit backdoor injection. Thirdly, a semi-supervised suppression strategy is adopted for erasing potential backdoors and improving model performance. Furthermore, to better inhibit missed poisoned samples, we propose a strong data augmentation method, AttentionMix, which works well with our proposed V&B framework. Extensive experiments on two widely used datasets against 6 state-of-the-art attacks demonstrate that our framework is effective in preventing backdoor injection and robust to various attacks while maintaining the performance on benign samples. Our code is available at https://github.com/Zixuan-Zhu/VaB.

arxiv情報

著者 Zixuan Zhu,Rui Wang,Cong Zou,Lihua Jing
発行日 2024-05-31 15:59:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク