要約
バックドア攻撃によるセキュリティの脅威は、ディープ ニューラル ネットワーク (DNN) にとって最大の懸念事項です。
最近では、汚染されたデータを使用せずに、クリーンなデータを使用してモデルをアンラーニングし、プルーニング マスクを学習することでバックドア防御に貢献しています。
さらに、これらのクリーンなデータを使用したバニラ微調整は、失われたクリーンな精度を回復するのに役立ちます。
ただし、クリーンなアンラーニングの動作はまだ研究されておらず、バニラの微調整は意図せずバックドア効果を誘発します。
この研究では、最初に重みの変化と勾配ノルムの観点からモデルの未学習を調査し、バックドア モデルで 2 つの興味深い観察結果を発見しました: 1) ポイズンとクリーンの未学習の間の重みの変化は正の相関があり、特定することが可能です。
ポイズニングされたデータを使用せずにバックドア関連のニューロンを処理します。
2) バックドア モデルのニューロンは、クリーン モデルのニューロンよりもアクティブ (つまり、勾配ノルムの変化が大きい) であり、微調整中に勾配ノルムを抑制する必要があることを示唆しています。
そこで効果的な二段階防御法を提案する。
第 1 段階では、観察 1) に基づいて、効率的なニューロン重み変更 (NWC) ベースのバックドア再初期化が提案されます。
第 2 段階では、観察 2) に基づいて、バニラの微調整を置き換えるアクティブ性を意識した微調整を設計します。
3 つのベンチマーク データセットに対する 8 つのバックドア攻撃を含む広範な実験により、最近の最先端のバックドア防御アプローチと比較して、提案された方法の優れたパフォーマンスが実証されました。
要約(オリジナル)
The security threat of backdoor attacks is a central concern for deep neural networks (DNNs). Recently, without poisoned data, unlearning models with clean data and then learning a pruning mask have contributed to backdoor defense. Additionally, vanilla fine-tuning with those clean data can help recover the lost clean accuracy. However, the behavior of clean unlearning is still under-explored, and vanilla fine-tuning unintentionally induces back the backdoor effect. In this work, we first investigate model unlearning from the perspective of weight changes and gradient norms, and find two interesting observations in the backdoored model: 1) the weight changes between poison and clean unlearning are positively correlated, making it possible for us to identify the backdoored-related neurons without using poisoned data; 2) the neurons of the backdoored model are more active (i.e., larger changes in gradient norm) than those in the clean model, suggesting the need to suppress the gradient norm during fine-tuning. Then, we propose an effective two-stage defense method. In the first stage, an efficient Neuron Weight Change (NWC)-based Backdoor Reinitialization is proposed based on observation 1). In the second stage, based on observation 2), we design an Activeness-Aware Fine-Tuning to replace the vanilla fine-tuning. Extensive experiments, involving eight backdoor attacks on three benchmark datasets, demonstrate the superior performance of our proposed method compared to recent state-of-the-art backdoor defense approaches.
arxiv情報
著者 | Weilin Lin,Li Liu,Shaokui Wei,Jianze Li,Hui Xiong |
発行日 | 2024-05-30 17:41:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google