Uncovering, Explaining, and Mitigating the Superficial Safety of Backdoor Defense

要約

バックドア攻撃は、攻撃者がバックドア トリガーを使用してモデル予測を操作できるため、ディープ ニューラル ネットワーク (DNN) にとって重大な脅威となります。
これらのセキュリティの脆弱性に対処するために、侵害されたモデルを浄化するためのさまざまなバックドア浄化方法が提案されています。
通常、これらの精製されたモデルは攻撃成功率 (ASR) が低く、バックドア入力に対する耐性が低くなります。
しかし、現在の安全浄化方法で低い ASR を達成すると、学習済みのバックドア機能が事前トレーニング段階から本当に排除されるのでしょうか?
このペーパーでは、現在のバックドア浄化方法の浄化後の堅牢性を徹底的に調査することで、この質問に対する肯定的な答えを提供します。
現在の安全精製方法は、非常に少数の汚染されたサンプルを使用して精製モデルのさらなる微調整が実行された場合でも、バックドアの動作の急速な再学習に対して脆弱であることがわかりました。
これに基づいて、精製されたモデルにクエリを実行するだけでバックドアを効果的に再アクティブ化できる実用的なクエリベースの再アクティブ化攻撃 (QRA) をさらに提案します。
満足のいく精製後の堅牢性を達成できないのは、バックドアに接続されたパスに沿ったバックドアモデルからの精製モデルの逸脱が不十分であることが原因であることがわかりました。
精製後の堅牢性を向上させるために、追加のモデル更新によりバックドアに接続されたパスに沿った逸脱を促進する、単純な調整防御であるパス認識最小化 (PAM) を提案します。
広範な実験により、PAM が良好なクリーン精度と低い ASR を維持しながら、精製後の堅牢性が大幅に向上することが実証されました。
私たちの研究は、バックドアの安全性チューニングの有効性を理解する上で新たな視点を提供し、モデルの安全性を忠実に評価することの重要性を強調しています。

要約(オリジナル)

Backdoor attacks pose a significant threat to Deep Neural Networks (DNNs) as they allow attackers to manipulate model predictions with backdoor triggers. To address these security vulnerabilities, various backdoor purification methods have been proposed to purify compromised models. Typically, these purified models exhibit low Attack Success Rates (ASR), rendering them resistant to backdoored inputs. However, Does achieving a low ASR through current safety purification methods truly eliminate learned backdoor features from the pretraining phase? In this paper, we provide an affirmative answer to this question by thoroughly investigating the Post-Purification Robustness of current backdoor purification methods. We find that current safety purification methods are vulnerable to the rapid re-learning of backdoor behavior, even when further fine-tuning of purified models is performed using a very small number of poisoned samples. Based on this, we further propose the practical Query-based Reactivation Attack (QRA) which could effectively reactivate the backdoor by merely querying purified models. We find the failure to achieve satisfactory post-purification robustness stems from the insufficient deviation of purified models from the backdoored model along the backdoor-connected path. To improve the post-purification robustness, we propose a straightforward tuning defense, Path-Aware Minimization (PAM), which promotes deviation along backdoor-connected paths with extra model updates. Extensive experiments demonstrate that PAM significantly improves post-purification robustness while maintaining a good clean accuracy and low ASR. Our work provides a new perspective on understanding the effectiveness of backdoor safety tuning and highlights the importance of faithfully assessing the model’s safety.

arxiv情報

著者 Rui Min,Zeyu Qin,Nevin L. Zhang,Li Shen,Minhao Cheng
発行日 2024-10-16 15:59:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.LG パーマリンク