CorruptEncoder: Data Poisoning based Backdoor Attacks to Contrastive Learning

要約

対照学習 (CL) は、画像 (シングルモーダル CL と呼ばれます) または画像とテキストのペア (マルチモーダル CL と呼ばれます) で構成される、ラベル付けされていない事前トレーニング データセットを使用して、汎用エンコーダーを事前トレーニングします。
CL は、データ ポイズニング ベースのバックドア攻撃 (DPBA) に対して脆弱です。この攻撃では、攻撃者が有害な入力をトレーニング前のデータセットに挿入して、エンコーダーをバックドアにします。
ただし、既存の DPBA の効果は限られています。
この作業では、CorruptEncoder と呼ばれる新しい DPBA を CL に提案します。
私たちの実験では、CorruptEncoder がシングルモーダルおよびマルチモーダル CL の両方で既存の DPBA よりも大幅に優れていることが示されています。
CorruptEncoder は、シングルモーダル CL で 90% を超える攻撃成功率を達成した最初の DPBA であり、参照イメージがわずか (3 つ) で、ポイズニング率がわずか (0.5%) でした。
さらに、単一モーダル CL を DPBA から防御するために、ローカライズされたクロッピングと呼ばれる防御も提案します。
私たちの結果は、私たちの防御がDPBAの有効性を低下させる可能性があることを示していますが、エンコーダーの有用性を犠牲にしており、新しい防御の必要性を強調しています.

要約(オリジナル)

Contrastive learning (CL) pre-trains general-purpose encoders using an unlabeled pre-training dataset, which consists of images (called single-modal CL) or image-text pairs (called multi-modal CL). CL is vulnerable to data poisoning based backdoor attacks (DPBAs), in which an attacker injects poisoned inputs into the pre-training dataset so the encoder is backdoored. However, existing DPBAs achieve limited effectiveness. In this work, we propose new DPBAs called CorruptEncoder to CL. Our experiments show that CorruptEncoder substantially outperforms existing DPBAs for both single-modal and multi-modal CL. CorruptEncoder is the first DPBA that achieves more than 90% attack success rates on single-modal CL with only a few (3) reference images and a small poisoning ratio (0.5%). Moreover, we also propose a defense, called localized cropping, to defend single-modal CL against DPBAs. Our results show that our defense can reduce the effectiveness of DPBAs, but it sacrifices the utility of the encoder, highlighting the needs of new defenses.

arxiv情報

著者 Jinghuai Zhang,Hongbin Liu,Jinyuan Jia,Neil Zhenqiang Gong
発行日 2022-11-15 15:48:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.CV, cs.LG パーマリンク