要約
クリップなどの事前に訓練されたビジョン言語モデル(VLM)は、マルチモーダルデータに優れた表現機能を示していますが、最近の研究では、それらがバックドア攻撃に対して脆弱であることが示されています。
脅威を緩和するために、既存の防衛戦略は主に疑わしいモデル全体の微調整に焦点を当てていますが、最先端の攻撃に対してわずかな抵抗のみを提供し、しばしば特にデータ制限シナリオでクリーン精度を低下させます。
それらの障害は、不十分な微調整データとVLMSの大規模なパラメーターとの間の不一致に起因する可能性があります。
この課題に対処するために、クラスごとのバックドアプロンプトチューニング(CBPT)防御を提案します。これは、テキストで動作する効率的かつ効果的な方法であり、中毒のVLMSを間接的に浄化するためです。
具体的には、最初に慎重に作成されたポジティブおよびネガティブサンプルを介して高度な対照学習を採用して、攻撃者が潜在的に採用するバックドアトリガーを効果的に反転させます。
ダミートリガーが確立されたら、効率的なプロンプトチューニング手法を利用して、これらのクラスごとのテキストプロンプトを最適化して、モデルの決定境界を変更して、バックドアトリガーの特徴領域をさらに再分類します。
広範な実験では、CBPTがモデルのユーティリティを維持しながらバックドアの脅威を大幅に軽減することを示しています。
58.86 \%の平均クリーン精度(CA)と、7つの主流のバックドア攻撃にわたる0.39 \%の攻撃成功率(ASR)。
これらの結果は、バックドア攻撃に対するモデルの堅牢性を強化するために、私たちの迅速な浄化設計の優位性を強調しています。
要約(オリジナル)
While pre-trained Vision-Language Models (VLMs) such as CLIP exhibit excellent representational capabilities for multimodal data, recent studies have shown that they are vulnerable to backdoor attacks. To alleviate the threat, existing defense strategies primarily focus on fine-tuning the entire suspicious model, yet offer only marginal resistance to state-of-the-art attacks and often result in a decrease in clean accuracy, particularly in data-limited scenarios. Their failure may be attributed to the mismatch between insufficient fine-tuning data and massive parameters in VLMs. To address this challenge, we propose Class-wise Backdoor Prompt Tuning (CBPT) defense, an efficient and effective method that operates on the text prompts to indirectly purify the poisoned VLMs. Specifically, we first employ the advanced contrastive learning via our carefully crafted positive and negative samples, to effectively invert the backdoor triggers that are potentially adopted by the attacker. Once the dummy trigger is established, we utilize the efficient prompt tuning technique to optimize these class-wise text prompts for modifying the model’s decision boundary to further reclassify the feature regions of backdoor triggers. Extensive experiments demonstrate that CBPT significantly mitigates backdoor threats while preserving model utility, e.g. an average Clean Accuracy (CA) of 58.86\% and an Attack Success Rate (ASR) of 0.39\% across seven mainstream backdoor attacks. These results underscore the superiority of our prompt purifying design to strengthen model robustness against backdoor attacks.
arxiv情報
著者 | Jiawei Kong,Hao Fang,Sihang Guo,Chenxi Qing,Bin Chen,Bin Wang,Shu-Tao Xia |
発行日 | 2025-02-26 16:25:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google