要約
CLIPのようなマルチモーダル表現モデルを、膨大な量の画像とテキストのペアデータで学習させるために、マルチモーダル対照的な事前学習が利用されています。しかし、これまでの研究で、このようなモデルがバックドア攻撃を受けやすいことが浮き彫りになっています。具体的には、CLIPはバックドアされた例で学習すると、埋め込まれたバックドアトリガーとターゲットラベルの間のスプリアスな相関を学習し、共同埋込み空間におけるそれらの表現を整列させる。3Mの事前学習データでは75例であったように、わずか数個の毒入り例を注入するだけで、モデルの挙動が大きく変化するため、このような相関関係を検出したり、学習解除したりすることが困難になる。この問題に対処するため、我々はCleanCLIPを提案する。CleanCLIPは、個々のモダリティの表現を独立して再調整することにより、バックドア攻撃によってもたらされる学習済みの偽関連付けを弱める微調整のフレームワークである。CleanCLIPは、画像とテキストのペアデータに対する教師なしファインチューニングと、ラベル付き画像データに対する教師ありファインチューニングの両方に用いることができる。我々は、個々のモダリティに対するマルチモーダルな対照的目的とユニモーダルな自己教師的目的の組み合わせによる教師なしファインチューニングが、バックドア攻撃の影響を大幅に低減できることを実証する。さらに、画像データのような個々のモダリティのタスクに特化したラベル付きデータに対する教師付き微調整は、CLIPビジョンエンコーダからバックドアトリガーを除去する。経験的に、CleanCLIPが、マルチモーダル対照学習における様々なバックドア攻撃の影響を緩和しながら、良性の例でモデル性能を維持することを示す。
要約(オリジナル)
Multimodal contrastive pretraining has been utilized to train multimodal representation models, like CLIP, on vast amounts of paired image-text data. However, previous studies have highlighted the susceptibility of such models to backdoor attacks. Specifically, when training on backdoored examples, CLIP learns spurious correlations between the embedded backdoor trigger and the target label, aligning their representations in the joint embedding space. With injecting only a few poisoned examples e.g., 75 examples in the 3M pretraining data, the model’s behavior can be significantly manipulated, thus making it hard to detect or unlearn such correlations. To address this issue, we propose CleanCLIP, a finetuning framework that weakens the learned spurious associations introduced by backdoor attacks by re-aligning the representations for individual modalities independently. CleanCLIP can be employed for both unsupervised finetuning on paired image-text data and for supervised finetuning on labeled image data. We demonstrate that unsupervised finetuning with a combination of multimodal contrastive and unimodal self-supervised objectives for individual modalities can significantly reduce the impact of the backdoor attack. Additionally, supervised finetuning on task-specific labeled data of the individual modality, such as image data, removes the backdoor trigger from the CLIP vision encoder. Empirically, we show that CleanCLIP maintains model performance on benign examples while mitigating the impact of a range of backdoor attacks on multimodal contrastive learning.
arxiv情報
著者 | Hritik Bansal,Nishad Singhi,Yu Yang,Fan Yin,Aditya Grover,Kai-Wei Chang |
発行日 | 2023-03-06 17:48:32+00:00 |
arxivサイト | arxiv_id(pdf) |