Securing Vision-Language Models with a Robust Encoder Against Jailbreak and Adversarial Attacks

要約

マルチモーダルなビッグ データセットでトレーニングされた大規模視覚言語モデル (LVLM) は、視覚言語タスクに優れることで AI を大幅に進化させました。
ただし、これらのモデルは、敵対的な攻撃、特に安全プロトコルをバイパスし、モデルが誤解を招くまたは有害な応答を生成するジェイルブレイク攻撃に対して脆弱なままです。
この脆弱性は、LLM の固有の脆弱性と、ビジュアル モダリティによって導入された攻撃対象領域の拡大の両方に起因します。
私たちは、Siamese アーキテクチャを活用して CLIP ビジョン エンコーダを敵対的に微調整する新しい防御メカニズムである Sim-CLIP+ を提案します。
このアプローチは、摂動されたサンプルとクリーンなサンプルの間のコサイン類似性を最大化し、敵対的な操作に対する回復力を促進します。
Sim-CLIP+ はプラグアンドプレイ ソリューションを提供し、堅牢なビジョン エンコーダとして既存の LVLM アーキテクチャにシームレスに統合できます。
以前の防御とは異なり、私たちの方法では LVLM の構造を変更する必要がなく、計算オーバーヘッドも最小限で済みます。
Sim-CLIP+ は、勾配ベースの敵対的攻撃とさまざまなジェイルブレイク技術の両方に対して有効であることを示しています。
私たちは Sim-CLIP+ を 3 つの異なるジェイルブレイク攻撃戦略に対して評価し、画像キャプション用の COCO や視覚的な質問応答用の OKVQA などの標準的なダウンストリーム データセットを使用してクリーンな評価を実行します。
広範な実験により、Sim-CLIP+ は高いクリーンな精度を維持しながら、勾配ベースの敵対的攻撃とジェイルブレイク技術の両方に対する堅牢性が大幅に向上していることが実証されています。
私たちのコードと堅牢なビジョン エンコーダーは、https://github.com/speedlab-git/Robust-Encoder-against-Jailbreak-攻撃.git で入手できます。

要約(オリジナル)

Large Vision-Language Models (LVLMs), trained on multimodal big datasets, have significantly advanced AI by excelling in vision-language tasks. However, these models remain vulnerable to adversarial attacks, particularly jailbreak attacks, which bypass safety protocols and cause the model to generate misleading or harmful responses. This vulnerability stems from both the inherent susceptibilities of LLMs and the expanded attack surface introduced by the visual modality. We propose Sim-CLIP+, a novel defense mechanism that adversarially fine-tunes the CLIP vision encoder by leveraging a Siamese architecture. This approach maximizes cosine similarity between perturbed and clean samples, facilitating resilience against adversarial manipulations. Sim-CLIP+ offers a plug-and-play solution, allowing seamless integration into existing LVLM architectures as a robust vision encoder. Unlike previous defenses, our method requires no structural modifications to the LVLM and incurs minimal computational overhead. Sim-CLIP+ demonstrates effectiveness against both gradient-based adversarial attacks and various jailbreak techniques. We evaluate Sim-CLIP+ against three distinct jailbreak attack strategies and perform clean evaluations using standard downstream datasets, including COCO for image captioning and OKVQA for visual question answering. Extensive experiments demonstrate that Sim-CLIP+ maintains high clean accuracy while substantially improving robustness against both gradient-based adversarial attacks and jailbreak techniques. Our code and robust vision encoders are available at https://github.com/speedlab-git/Robust-Encoder-against-Jailbreak-attack.git.

arxiv情報

著者 Md Zarif Hossain,Ahmed Imteaj
発行日 2024-09-11 15:39:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク