要約
自己教師あり学習(SSL)は、テキスト、画像、動画などのラベルのないデータから表現を学習するための効果的なパラダイムである。しかし、研究者は最近、SSLがバックドア攻撃に対して脆弱であることを発見した。攻撃者は、訓練データセット内の少数のポイズンされた例を通じて、隠されたSSLバックドアを埋め込むことができ、悪意を持って下流のモデルの動作を操作することができる。SSLバックドア攻撃を防御するために、実現可能な方法は、訓練セット内の毒サンプルを検出して除去することである。しかし、既存のSSLバックドア防御手法は、毒サンプルを正確に検出することができない。本論文では、クラスタ活性化マスキングによってSSLバックドアを消去することを提案し、新しいPoisonCAM手法を提案する。毒入りデータセットで学習した脅威モデルを得た後、バックドアのトリガーをマスキングすることで、下流のクラスタリングモデルの活性化を効果的に変化させることができるという仮定に基づき、我々の手法は毒入りサンプルを正確に検出することができる。実験では、我々のPoisonCAMは、毒入りImageNet-100において、最先端の手法の3%と比較して、バックドアトリガーの検出において96%の精度を達成した。さらに、我々の提案するPoisonCAMは、バックドア攻撃下での学習済みSSLモデルの性能を、最先端の手法と比較して大幅に改善する。我々のコード、データ、学習済みモデルは、本論文が受理された時点で公開される予定である。
要約(オリジナル)
Self-Supervised Learning (SSL) is an effective paradigm for learning representations from unlabeled data, such as text, images, and videos. However, researchers have recently found that SSL is vulnerable to backdoor attacks. The attacker can embed hidden SSL backdoors via a few poisoned examples in the training dataset and maliciously manipulate the behavior of downstream models. To defend against SSL backdoor attacks, a feasible route is to detect and remove the poisonous samples in the training set. However, the existing SSL backdoor defense method fails to detect the poisonous samples precisely. In this paper, we propose to erase the SSL backdoor by cluster activation masking and propose a novel PoisonCAM method. After obtaining the threat model trained on the poisoned dataset, our method can precisely detect poisonous samples based on the assumption that masking the backdoor trigger can effectively change the activation of a downstream clustering model. In experiments, our PoisonCAM achieves 96\% accuracy for backdoor trigger detection compared to 3\% of the state-of-the-art method on poisoned ImageNet-100. Moreover, our proposed PoisonCAM significantly improves the performance of the trained SSL model under backdoor attacks compared to the state-of-the-art method. Our code, data, and trained models will be open once this paper is accepted.
arxiv情報
著者 | Shengsheng Qian,Dizhan Xue,Yifei Wang,Shengjie Zhang,Huaiwen Zhang,Changsheng Xu |
発行日 | 2024-11-01 14:45:44+00:00 |
arxivサイト | arxiv_id(pdf) |