Backdoor Attacks on Self-Supervised Learning

要約

近年、大規模なラベル付けされていないデータにより、豊富な視覚表現を学習する自己教師付き学習法の進歩に拍車がかかっている。画像から表現を学習する最新の自己教師付き学習法(例:MoCo、BYOL、MSF)は、画像のランダムな補強(例:ランダムな切り取り)により類似した埋め込みが生成されるはずだという帰納的バイアスを用いている。このような方法は、バックドア攻撃(攻撃者が画像にトリガー(攻撃者が選んだ画像パッチ)を追加することにより、ラベル付けされていないデータのごく一部を汚染すること)に対して脆弱であることを示す。クリーンなテスト画像ではモデルの性能は良いが、攻撃者はテスト時にトリガーを示すことでモデルの判定を操作することができる。バックドア攻撃は教師あり学習で広く研究されており、我々の知る限りでは、自己教師あり学習で研究したのは我々が初めてである。自己教師あり学習では、大量の非標識データを用いるため、毒を除去するためのデータ検査が法外になるため、バックドア攻撃がより実用的である。我々は、標的型攻撃において、攻撃者がテスト時のトリガーを利用することで、標的のカテゴリに対して多くの偽陽性を生成できることを示す。また、知識抽出に基づく防御方法を提案し、この攻撃を無効化することに成功した。我々のコードはこちらで公開されています: https://github.com/UMBCvision/SSL-Backdoor .

要約(オリジナル)

Large-scale unlabeled data has spurred recent progress in self-supervised learning methods that learn rich visual representations. State-of-the-art self-supervised methods for learning representations from images (e.g., MoCo, BYOL, MSF) use an inductive bias that random augmentations (e.g., random crops) of an image should produce similar embeddings. We show that such methods are vulnerable to backdoor attacks – where an attacker poisons a small part of the unlabeled data by adding a trigger (image patch chosen by the attacker) to the images. The model performance is good on clean test images, but the attacker can manipulate the decision of the model by showing the trigger at test time. Backdoor attacks have been studied extensively in supervised learning and to the best of our knowledge, we are the first to study them for self-supervised learning. Backdoor attacks are more practical in self-supervised learning, since the use of large unlabeled data makes data inspection to remove poisons prohibitive. We show that in our targeted attack, the attacker can produce many false positives for the target category by using the trigger at test time. We also propose a defense method based on knowledge distillation that succeeds in neutralizing the attack. Our code is available here: https://github.com/UMBCvision/SSL-Backdoor .

arxiv情報

著者 Aniruddha Saha,Ajinkya Tejankar,Soroush Abbasi Koohpayegani,Hamed Pirsiavash
発行日 2022-06-09 00:18:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク