CorruptEncoder: Data Poisoning based Backdoor Attacks to Contrastive Learning

要約

対照学習(CL)は、画像または画像とテキストのペアからなるラベル付けされていない事前学習データセットを用いて、汎用エンコーダを事前学習する。CLはデータポイズニングに基づくバックドア攻撃(DPBA)に対して脆弱であり、攻撃者は事前学習データセットにポイズニング入力を注入するため、エンコーダはバックドアされてしまう。しかし、既存のDPBAの効果は限定的である。本研究では、まず既存のバックドア攻撃の限界を分析し、CorruptEncoderと呼ばれる新しいDPBAをCLに提案する。CorruptEncoderは、ポイズン入力を作成する新しい攻撃戦略を導入し、攻撃効果を最大化するために理論的に導かれた方法を使用します。我々の実験は、CorruptEncoderが既存のDPBAを大幅に上回ることを示している。特に、CorruptEncoderは、わずか数枚(3枚)の参照画像と小さなポイズニング率0.5%で90%以上の攻撃成功率を達成した最初のDPBAである。さらに、我々はDPBAから防御するために、局所的クロッピングと呼ばれる防御も提案する。我々の結果は、我々の防御はDPBAの有効性を減少させることができるが、エンコーダの実用性を犠牲にすることを示しており、新たな防御の必要性を強調している。

要約(オリジナル)

Contrastive learning (CL) pre-trains general-purpose encoders using an unlabeled pre-training dataset, which consists of images or image-text pairs. CL is vulnerable to data poisoning based backdoor attacks (DPBAs), in which an attacker injects poisoned inputs into the pre-training dataset so the encoder is backdoored. However, existing DPBAs achieve limited effectiveness. In this work, we take the first step to analyze the limitations of existing backdoor attacks and propose new DPBAs called CorruptEncoder to CL. CorruptEncoder introduces a new attack strategy to create poisoned inputs and uses a theory-guided method to maximize attack effectiveness. Our experiments show that CorruptEncoder substantially outperforms existing DPBAs. In particular, CorruptEncoder is the first DPBA that achieves more than 90% attack success rates with only a few (3) reference images and a small poisoning ratio 0.5%. Moreover, we also propose a defense, called localized cropping, to defend against DPBAs. Our results show that our defense can reduce the effectiveness of DPBAs, but it sacrifices the utility of the encoder, highlighting the need for new defenses.

arxiv情報

著者 Jinghuai Zhang,Hongbin Liu,Jinyuan Jia,Neil Zhenqiang Gong
発行日 2024-02-29 21:26:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CR, cs.CV, cs.LG パーマリンク