Mitigating Backdoor Attack by Injecting Proactive Defensive Backdoor

要約

データポイズニング バックドア攻撃は、機械学習モデルに対する重大なセキュリティ上の脅威であり、攻撃者がトレーニング データセットを操作してモデルにバックドアを挿入する可能性があります。
このペーパーでは、データセットが汚染されている可能性がある場合でもクリーンなモデルをトレーニングすることを目的として、トレーニング中のバックドア防御に焦点を当てています。
悪意のあるバックドア攻撃を軽減するために、主に疑わしいサンプルを検出して削除/学習解除する既存のほとんどの方法とは異なり、PDB (Proactive Defensive Backdoor) と呼ばれる新しい防御アプローチを提案します。
具体的には、PDB は、トレーニング中にモデルに防御的なバックドアを積極的に挿入することで、守備側のホームフィールドの利点を活用します。
防御的バックドアは、トレーニング プロセスの制御を利用して、攻撃者に対して秘密を保ちながら、悪意のあるバックドアを効果的に抑制するように設計されています。
さらに、防御ターゲットのラベルを決定するための可逆マッピングを導入します。
推論中、PDB は入力に防御トリガーを埋め込み、モデルの予測を逆にして、悪意のあるバックドアを抑制し、元のタスクでのモデルの有用性を確保します。
さまざまなデータセットとモデルにわたる実験結果は、私たちのアプローチが広範なバックドア攻撃に対して最先端の防御パフォーマンスを達成していることを示しています。
コードは https://github.com/shawkui/Proactive_Defensive_Backdoor で入手できます。

要約(オリジナル)

Data-poisoning backdoor attacks are serious security threats to machine learning models, where an adversary can manipulate the training dataset to inject backdoors into models. In this paper, we focus on in-training backdoor defense, aiming to train a clean model even when the dataset may be potentially poisoned. Unlike most existing methods that primarily detect and remove/unlearn suspicious samples to mitigate malicious backdoor attacks, we propose a novel defense approach called PDB (Proactive Defensive Backdoor). Specifically, PDB leverages the home-field advantage of defenders by proactively injecting a defensive backdoor into the model during training. Taking advantage of controlling the training process, the defensive backdoor is designed to suppress the malicious backdoor effectively while remaining secret to attackers. In addition, we introduce a reversible mapping to determine the defensive target label. During inference, PDB embeds a defensive trigger in the inputs and reverses the model’s prediction, suppressing malicious backdoor and ensuring the model’s utility on the original task. Experimental results across various datasets and models demonstrate that our approach achieves state-of-the-art defense performance against a wide range of backdoor attacks. The code is available at https://github.com/shawkui/Proactive_Defensive_Backdoor.

arxiv情報

著者 Shaokui Wei,Hongyuan Zha,Baoyuan Wu
発行日 2024-10-15 15:30:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.CV パーマリンク