Efficient Backdoor Removal Through Natural Gradient Fine-tuning

要約

ディープ ニューラル ネットワーク (DNN) の成功は、トレーニング スキームの詳細に大きく依存します。
例: トレーニング データ、アーキテクチャ、ハイパーパラメータなど。最近のバックドア攻撃は、攻撃者がそのようなトレーニングの詳細を利用して DNN の整合性を損なう可能性があることを示唆しています。
私たちの調査によると、バックドア モデルは通常、悪い極小値、つまり良性のモデルと比較してより鋭い極小値に最適化されています。
直感的には、バックドア モデルは、いくつかのクリーンな検証データを使用して微調整することにより、モデルをより滑らかな最小値に再最適化することで精製できます。
ただし、すべての DNN パラメーターを微調整するには、多くの場合、膨大な計算コストが必要となり、クリーンなテストのパフォーマンスが標準以下になることがよくあります。
この懸念に対処するために、私たちは新しいバックドア浄化技術である Natural Gradient Fine-tuning (NGF) を提案します。これは、1 つの層のみを微調整することでバックドアを除去することに焦点を当てています。
具体的には、NGF は、1 層の最適化シナリオで滑らかな最小値に到達するという課題をうまく克服できる損失曲面幾何学認識オプティマイザーを利用しています。
提案手法の汎化性能を強化するために、損失曲面曲率行列、つまりフィッシャー情報行列の知識に基づいたクリーンなデータ分布を意識した正則化器を導入します。
広範な実験により、提案された方法が広範なバックドア防御ベンチマークで最先端のパフォーマンスを達成することが示されています。
最近の 13 件のバックドア攻撃、例:
ブレンド、ダイナミック、WaNet、ISSBA など

要約(オリジナル)

The success of a deep neural network (DNN) heavily relies on the details of the training scheme; e.g., training data, architectures, hyper-parameters, etc. Recent backdoor attacks suggest that an adversary can take advantage of such training details and compromise the integrity of a DNN. Our studies show that a backdoor model is usually optimized to a bad local minima, i.e. sharper minima as compared to a benign model. Intuitively, a backdoor model can be purified by reoptimizing the model to a smoother minima through fine-tuning with a few clean validation data. However, fine-tuning all DNN parameters often requires huge computational costs and often results in sub-par clean test performance. To address this concern, we propose a novel backdoor purification technique, Natural Gradient Fine-tuning (NGF), which focuses on removing the backdoor by fine-tuning only one layer. Specifically, NGF utilizes a loss surface geometry-aware optimizer that can successfully overcome the challenge of reaching a smooth minima under a one-layer optimization scenario. To enhance the generalization performance of our proposed method, we introduce a clean data distribution-aware regularizer based on the knowledge of loss surface curvature matrix, i.e., Fisher Information Matrix. Extensive experiments show that the proposed method achieves state-of-the-art performance on a wide range of backdoor defense benchmarks: four different datasets- CIFAR10, GTSRB, Tiny-ImageNet, and ImageNet; 13 recent backdoor attacks, e.g. Blend, Dynamic, WaNet, ISSBA, etc.

arxiv情報

著者 Nazmul Karim,Abdullah Al Arafat,Umar Khalid,Zhishan Guo,Naznin Rahnavard
発行日 2023-06-30 07:25:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク