Jailbreak Vision Language Models via Bi-Modal Adversarial Prompt

要約

Large Vision Language Model (LVLM) の領域では、ジェイルブレイク攻撃は、ガードレールをバイパスし、安全性への影響を明らかにするためのレッドチーム アプローチとして機能します。
既存のジェイルブレイクは主に視覚的なモダリティに焦点を当てており、攻撃のプロンプトにおける視覚的な入力のみを混乱させます。
しかし、生成のために視覚的特徴とテキスト的特徴を同時に融合する整列されたモデルに直面すると、それらは不十分になります。
この制限に対処するために、このホワイト ペーパーでは、テキストと視覚的なプロンプトを統合して最適化することでジェイルブレイクを実行する、バイモーダル敵対的プロンプト攻撃 (BAP) を紹介します。
最初に、少数ショットのクエリに依存しないコーパス(肯定的な接頭語や否定的な抑制など)に基づいて、普遍的に有害な摂動を敵対的に画像に埋め込みます。
このプロセスにより、イメージ プロンプトが LVLM に有害なクエリに対して積極的に応答するようになります。
その後、敵対的な画像を活用して、特定の有害な意図を持つテキスト プロンプトを最適化します。
特に、大規模な言語モデルを利用してジェイルブレイクの失敗を分析し、思考連鎖推論を採用して、フィードバックと反復の方法を通じてテキストのプロンプトを改良します。
私たちのアプローチの有効性を検証するために、さまざまなデータセットと LVLM に対して広範な評価を実施し、私たちの方法が他の方法よりも大幅に優れていることを実証しました (攻撃成功率は平均で +29.03%)。
さらに、Gemini や ChatGLM などのブラックボックス商用 LVLM に対する攻撃の可能性を紹介します。

要約(オリジナル)

In the realm of large vision language models (LVLMs), jailbreak attacks serve as a red-teaming approach to bypass guardrails and uncover safety implications. Existing jailbreaks predominantly focus on the visual modality, perturbing solely visual inputs in the prompt for attacks. However, they fall short when confronted with aligned models that fuse visual and textual features simultaneously for generation. To address this limitation, this paper introduces the Bi-Modal Adversarial Prompt Attack (BAP), which executes jailbreaks by optimizing textual and visual prompts cohesively. Initially, we adversarially embed universally harmful perturbations in an image, guided by a few-shot query-agnostic corpus (e.g., affirmative prefixes and negative inhibitions). This process ensures that image prompt LVLMs to respond positively to any harmful queries. Subsequently, leveraging the adversarial image, we optimize textual prompts with specific harmful intent. In particular, we utilize a large language model to analyze jailbreak failures and employ chain-of-thought reasoning to refine textual prompts through a feedback-iteration manner. To validate the efficacy of our approach, we conducted extensive evaluations on various datasets and LVLMs, demonstrating that our method significantly outperforms other methods by large margins (+29.03% in attack success rate on average). Additionally, we showcase the potential of our attacks on black-box commercial LVLMs, such as Gemini and ChatGLM.

arxiv情報

著者 Zonghao Ying,Aishan Liu,Tianyuan Zhang,Zhengmin Yu,Siyuan Liang,Xianglong Liu,Dacheng Tao
発行日 2024-07-01 14:25:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.CV パーマリンク