ASSET: Robust Backdoor Data Detection Across a Multiplicity of Deep Learning Paradigms


バックドア データの検出は、従来、エンド ツー エンドの教師あり学習 (SL) 設定で研究されてきました。
ただし、近年では、ラベル付けされたデータの必要性が低いため、自己教師あり学習 (SSL) と転移学習 (TL) の採用が急増しています。
56 の攻撃設定を評価することにより、ほとんどの既存の検出方法のパフォーマンスは、さまざまな攻撃と毒の比率で大きく異なり、最先端のクリーンラベル攻撃ではすべて失敗することが示されました。
さらに、SSL および TL に適用すると、適用できなくなるか、パフォーマンスが大幅に低下します。
Active Separation via Offset (ASSET) と呼ばれる新しい検出方法を提案します。これは、バックドア サンプルとクリーン サンプルの間で異なるモデル動作を積極的に誘導して、それらの分離を促進します。
エンド ツー エンドの SL 設定では、ASSET は、さまざまな攻撃にわたる防御性能の一貫性と、毒比率の変化に対するロバスト性の点で、既存の方法よりも優れています。
さらに、ASSET の平均検出率は、SSL と TL の既存の最良の方法よりもそれぞれ 69.3% と 33.2% 高く、これらの新しい DL 設定に対して最初の実用的なバックドア防御を提供します。


Backdoor data detection is traditionally studied in an end-to-end supervised learning (SL) setting. However, recent years have seen the proliferating adoption of self-supervised learning (SSL) and transfer learning (TL), due to their lesser need for labeled data. Successful backdoor attacks have also been demonstrated in these new settings. However, we lack a thorough understanding of the applicability of existing detection methods across a variety of learning settings. By evaluating 56 attack settings, we show that the performance of most existing detection methods varies significantly across different attacks and poison ratios, and all fail on the state-of-the-art clean-label attack. In addition, they either become inapplicable or suffer large performance losses when applied to SSL and TL. We propose a new detection method called Active Separation via Offset (ASSET), which actively induces different model behaviors between the backdoor and clean samples to promote their separation. We also provide procedures to adaptively select the number of suspicious points to remove. In the end-to-end SL setting, ASSET is superior to existing methods in terms of consistency of defensive performance across different attacks and robustness to changes in poison ratios; in particular, it is the only method that can detect the state-of-the-art clean-label attack. Moreover, ASSET’s average detection rates are higher than the best existing methods in SSL and TL, respectively, by 69.3% and 33.2%, thus providing the first practical backdoor defense for these new DL settings. We open-source the project to drive further development and encourage engagement:


著者 Minzhou Pan,Yi Zeng,Lingjuan Lyu,Xue Lin,Ruoxi Jia
発行日 2023-02-22 14:43:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.AI, cs.CR, cs.CV, cs.LG パーマリンク