Fusing Pruned and Backdoored Models: Optimal Transport-based Data-free Backdoor Mitigation

要約

バックドア攻撃は、ディープ ニューロン ネットワーク (DNN) に重大なセキュリティ上の脅威をもたらします。
近年、数多くの効果的な防御技術が提案されていますが、それらは必然的にクリーンなデータまたは汚染されたデータのいずれかの利用可能性に依存します。
対照的に、データフリーの防御技術はゆっくりと進化しており、依然としてパフォーマンスが大幅に遅れています。
この問題に対処するために、プルーニングに続いて微調整を行う従来のアプローチとは異なり、本研究では最適トランスポートベースのバックドア修復 (OTBR) と呼ばれる新しいデータフリー防御方法を提案します。
この方法は、ランダムなアンラーニングによるニューロン重み変化 (NWC) に関する発見に基づいており、最適トランスポート (OT) ベースのモデル融合を使用して、プルーニングされたモデルとバックドア モデルの両方の利点を組み合わせています。
具体的には、まず、ランダムな非学習の NWC がポイズンの非学習の NWC と正の相関があるという調査結果を実証します。
この観察に基づいて、バックドア効果を排除し、バックドアのない枝刈りモデルを取得するためのランダム非学習 NWC 枝刈り手法を提案します。
次に、OT ベースのモデルの融合を動機として、プルーニングされたモデルとバックドアされたモデルを融合して両方の利点を組み合わせた、プルーニングされたモデルとバックドアされたモデルの OT ベースの融合手法を提案します。その結果、高いクリーンな精度と低い精度を示すモデルが得られます。
攻撃成功率。
私たちの知る限り、これは OT とモデルの融合技術をバックドア防御に適用した最初の研究です。
広範な実験により、私たちの手法は 3 つのベンチマーク データセットにわたる 7 つのバックドア攻撃すべてに対する防御に成功し、最先端 (SOTA) のデータフリー手法とデータ依存手法の両方を上回るパフォーマンスを示したことが示されています。
コードの実装と付録は補足資料で提供されます。

要約(オリジナル)

Backdoor attacks present a serious security threat to deep neuron networks (DNNs). Although numerous effective defense techniques have been proposed in recent years, they inevitably rely on the availability of either clean or poisoned data. In contrast, data-free defense techniques have evolved slowly and still lag significantly in performance. To address this issue, different from the traditional approach of pruning followed by fine-tuning, we propose a novel data-free defense method named Optimal Transport-based Backdoor Repairing (OTBR) in this work. This method, based on our findings on neuron weight changes (NWCs) of random unlearning, uses optimal transport (OT)-based model fusion to combine the advantages of both pruned and backdoored models. Specifically, we first demonstrate our findings that the NWCs of random unlearning are positively correlated with those of poison unlearning. Based on this observation, we propose a random-unlearning NWC pruning technique to eliminate the backdoor effect and obtain a backdoor-free pruned model. Then, motivated by the OT-based model fusion, we propose the pruned-to-backdoored OT-based fusion technique, which fuses pruned and backdoored models to combine the advantages of both, resulting in a model that demonstrates high clean accuracy and a low attack success rate. To our knowledge, this is the first work to apply OT and model fusion techniques to backdoor defense. Extensive experiments show that our method successfully defends against all seven backdoor attacks across three benchmark datasets, outperforming both state-of-the-art (SOTA) data-free and data-dependent methods. The code implementation and Appendix are provided in the Supplementary Material.

arxiv情報

著者 Weilin Lin,Li Liu,Jianze Li,Hui Xiong
発行日 2024-08-28 15:21:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG パーマリンク