PAD-FT: A Lightweight Defense for Backdoor Attacks via Data Purification and Fine-Tuning

要約

バックドア攻撃は、特に最近の進歩によりますます巧妙な埋め込みが行われ、防御がより困難になっているため、ディープ ニューラル ネットワークに重大な脅威をもたらします。
既存の防御メカニズムは通常、標準参照として追加のクリーンなデータセットに依存しており、補助モデルの再トレーニングや被害者モデル全体の微調整が含まれます。
ただし、これらのアプローチは多くの場合、計算コストが高くつき、実際のアプリケーションでは常に実現可能であるとは限りません。
この論文では、追加のクリーンなデータセットを必要とせず、被害者モデルを駆除するためにモデルのごく一部のみを微調整する、PAD-FT と呼ばれる、新しく軽量な防御メカニズムを提案します。
これを達成するために、私たちのアプローチではまず、汚染されたトレーニング データセットから最も可能性の高いクリーンなデータを特定して選択するための単純なデータ純化プロセスを導入します。
自己浄化されたクリーンなデータセットは、アクティベーション クリッピングと犠牲モデルの最後の分類層のみの微調整に使用されます。
データ精製、アクティベーション クリッピング、分類子の微調整を統合することにより、当社のメカニズム PAD-FT は、広範な実験評価を通じて確認されたように、複数のバックドア攻撃手法とデータセットにわたって優れた有効性を実証します。

要約(オリジナル)

Backdoor attacks pose a significant threat to deep neural networks, particularly as recent advancements have led to increasingly subtle implantation, making the defense more challenging. Existing defense mechanisms typically rely on an additional clean dataset as a standard reference and involve retraining an auxiliary model or fine-tuning the entire victim model. However, these approaches are often computationally expensive and not always feasible in practical applications. In this paper, we propose a novel and lightweight defense mechanism, termed PAD-FT, that does not require an additional clean dataset and fine-tunes only a very small part of the model to disinfect the victim model. To achieve this, our approach first introduces a simple data purification process to identify and select the most-likely clean data from the poisoned training dataset. The self-purified clean dataset is then used for activation clipping and fine-tuning only the last classification layer of the victim model. By integrating data purification, activation clipping, and classifier fine-tuning, our mechanism PAD-FT demonstrates superior effectiveness across multiple backdoor attack methods and datasets, as confirmed through extensive experimental evaluation.

arxiv情報

著者 Yukai Xu,Yujie Gu,Kouichi Sakurai
発行日 2024-09-18 15:47:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.CV パーマリンク