The Victim and The Beneficiary: Exploiting a Poisoned Model to Train a Clean Model on Poisoned Data


最近、バックドア攻撃がディープ ニューラル ネットワーク (DNN) のトレーニング プロセスに重大なセキュリティ上の脅威をもたらしています。
これは、新しいデュアルネットワーク トレーニング フレームワークである被害者と受益者 (V&B) を提案するきっかけとなりました。これは、有害なモデルを利用して、余分な良性のサンプルを使用せずにクリーンなモデルをトレーニングします。
まず、Victim ネットワークを犠牲にして、疑わしいサンプルについてトレーニングすることで、強力な毒物サンプル検出器として機能させます。
次に、バックドア インジェクションを阻止するために、被害者が選択した信頼できるサンプルに基づいて受益者ネットワークをトレーニングします。
さらに、汚染されたサンプルの見逃しをより効果的に防止するために、私たちが提案する V&B フレームワークとうまく機能する強力なデータ拡張手法である Attending Mix を提案します。
6 つの最先端の攻撃に対する 2 つの広く使用されているデータセットに対する広範な実験により、私たちのフレームワークがバックドア インジェクションの防止に効果的であり、無害なサンプルでのパフォーマンスを維持しながらさまざまな攻撃に対して堅牢であることが実証されました。
私たちのコードは で入手できます。


Recently, backdoor attacks have posed a serious security threat to the training process of deep neural networks (DNNs). The attacked model behaves normally on benign samples but outputs a specific result when the trigger is present. However, compared with the rocketing progress of backdoor attacks, existing defenses are difficult to deal with these threats effectively or require benign samples to work, which may be unavailable in real scenarios. In this paper, we find that the poisoned samples and benign samples can be distinguished with prediction entropy. This inspires us to propose a novel dual-network training framework: The Victim and The Beneficiary (V&B), which exploits a poisoned model to train a clean model without extra benign samples. Firstly, we sacrifice the Victim network to be a powerful poisoned sample detector by training on suspicious samples. Secondly, we train the Beneficiary network on the credible samples selected by the Victim to inhibit backdoor injection. Thirdly, a semi-supervised suppression strategy is adopted for erasing potential backdoors and improving model performance. Furthermore, to better inhibit missed poisoned samples, we propose a strong data augmentation method, AttentionMix, which works well with our proposed V&B framework. Extensive experiments on two widely used datasets against 6 state-of-the-art attacks demonstrate that our framework is effective in preventing backdoor injection and robust to various attacks while maintaining the performance on benign samples. Our code is available at


著者 Zixuan Zhu,Rui Wang,Cong Zou,Lihua Jing
発行日 2024-05-31 15:59:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CV パーマリンク