Cert-SSB: Toward Certified Sample-Specific Backdoor Defense

要約

ディープニューラルネットワーク(DNNS)は、バックドア攻撃に対して脆弱であり、攻撃者がトレーニングデータのごく一部を操作して、隠された背景をモデルに移植します。
侵害されたモデルは、クリーンなサンプルで通常動作しますが、攻撃者指定のターゲットクラスに背景のサンプルを誤って分類し、実際のDNNアプリケーションに大きな脅威をもたらします。
現在、バックドア攻撃を緩和するためにいくつかの経験的防御方法が提案されていますが、それらはしばしばより高度なバックドアテクニックによってバイパスされています。
対照的に、ランダム化されたスムージングに基づく認定された防御は、トレーニングサンプルにランダムノイズを追加してバックドア攻撃に対抗することにより有望であることが示されています。
この論文では、既存のランダム化されたスムージング防御が、すべてのサンプルが決定境界から等距離であると暗黙的に仮定していることを明らかにします。
ただし、実際には保持されず、最適ではない認証パフォーマンスにつながる可能性があります。
この問題に対処するために、CERT-SSBと呼ばれるサンプル固有の認定バックドア防衛法を提案します。
CERT-SSBは、最初に確率的勾配上昇を使用して各サンプルのノイズの大きさを最適化し、サンプル固有のノイズレベルを保証し、複数の中毒トレーニングセットに適用していくつかの平滑化されたモデルを再訓練します。
その後、CERT-SSBは、複数の平滑化されたモデルの予測を集約して、最終的な堅牢な予測を生成します。
特に、この場合、最適化されたノイズはサンプルによって異なるため、既存の認証方法は適用できなくなります。
この課題を克服するために、各サンプルの認証領域を動的に調整して認証パフォーマンスを改善するストレージアップデートベースの認証方法を導入します。
複数のベンチマークデータセットで広範な実験を実施し、提案された方法の有効性を実証します。
私たちのコードは、https://github.com/ncepuqiaoting/cert-ssbで入手できます。

要約(オリジナル)

Deep neural networks (DNNs) are vulnerable to backdoor attacks, where an attacker manipulates a small portion of the training data to implant hidden backdoors into the model. The compromised model behaves normally on clean samples but misclassifies backdoored samples into the attacker-specified target class, posing a significant threat to real-world DNN applications. Currently, several empirical defense methods have been proposed to mitigate backdoor attacks, but they are often bypassed by more advanced backdoor techniques. In contrast, certified defenses based on randomized smoothing have shown promise by adding random noise to training and testing samples to counteract backdoor attacks. In this paper, we reveal that existing randomized smoothing defenses implicitly assume that all samples are equidistant from the decision boundary. However, it may not hold in practice, leading to suboptimal certification performance. To address this issue, we propose a sample-specific certified backdoor defense method, termed Cert-SSB. Cert-SSB first employs stochastic gradient ascent to optimize the noise magnitude for each sample, ensuring a sample-specific noise level that is then applied to multiple poisoned training sets to retrain several smoothed models. After that, Cert-SSB aggregates the predictions of multiple smoothed models to generate the final robust prediction. In particular, in this case, existing certification methods become inapplicable since the optimized noise varies across different samples. To conquer this challenge, we introduce a storage-update-based certification method, which dynamically adjusts each sample’s certification region to improve certification performance. We conduct extensive experiments on multiple benchmark datasets, demonstrating the effectiveness of our proposed method. Our code is available at https://github.com/NcepuQiaoTing/Cert-SSB.

arxiv情報

著者 Ting Qiao,Yingjia Wang,Xing Liu,Sixing Wu,Jianbing Li,Yiming Li
発行日 2025-04-30 15:21:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.CV, cs.LG パーマリンク