BlueSuffix: Reinforced Blue Teaming for Vision-Language Models Against Jailbreak Attacks

要約

ビジョン言語モデル (VLM) は、その優れたマルチモーダル機能にもかかわらず、ジェイルブレイク攻撃に対して脆弱であることがわかっています。ジェイルブレイク攻撃とは、モデルがトリッキーなプロンプトで有害な応答を出力するように誘導する推論時攻撃です。
したがって、現実世界のアプリケーションで VLM を信頼できる展開するには、潜在的なジェイルブレイクから VLM を防御することが不可欠です。
この作業では、ジェイルブレイク攻撃に対する VLM のブラックボックス防御に焦点を当てています。
既存のブラックボックス防御方法は、単峰性または双峰性のいずれかです。
単峰性手法は VLM の視覚モジュールまたは言語モジュールを強化しますが、二峰性手法はテキストと画像の表現を再調整することでモデルを強化します。
ただし、これらの方法には 2 つの制限があります。1) クロスモーダル情報を完全に活用できない、または 2) 良性の入力でモデルのパフォーマンスが低下します。
これらの制限に対処するために、パフォーマンスを損なうことなくブラックボックスのターゲット VLM をジェイルブレイク攻撃から防御する、新しいブルーチーム手法 BlueSuffix を提案します。
BlueSuffix には 3 つの重要なコンポーネントが含まれています。1) 脱獄画像に対する視覚的ピュリファイア、2) 脱獄テキストに対するテキスト ピュリファイア、3) クロスモーダルの堅牢性を強化するために強化学習によって微調整されたブルーチーム サフィックス ジェネレーターです。
3 つの VLM (LLaVA、MiniGPT-4、および Gemini) と 2 つの安全ベンチマーク (MM-SafetyBench および RedTeam-2K) で、BlueSuffix がベースライン防御を大幅に上回るパフォーマンスを示すことを経験的に示しています。
当社の BlueSuffix は、ジェイルブレイク攻撃から VLM を防御するための有望な方向性を切り開きます。

要約(オリジナル)

Despite their superb multimodal capabilities, Vision-Language Models (VLMs) have been shown to be vulnerable to jailbreak attacks, which are inference-time attacks that induce the model to output harmful responses with tricky prompts. It is thus essential to defend VLMs against potential jailbreaks for their trustworthy deployment in real-world applications. In this work, we focus on black-box defense for VLMs against jailbreak attacks. Existing black-box defense methods are either unimodal or bimodal. Unimodal methods enhance either the vision or language module of the VLM, while bimodal methods robustify the model through text-image representation realignment. However, these methods suffer from two limitations: 1) they fail to fully exploit the cross-modal information, or 2) they degrade the model performance on benign inputs. To address these limitations, we propose a novel blue-team method BlueSuffix that defends the black-box target VLM against jailbreak attacks without compromising its performance. BlueSuffix includes three key components: 1) a visual purifier against jailbreak images, 2) a textual purifier against jailbreak texts, and 3) a blue-team suffix generator fine-tuned via reinforcement learning for enhancing cross-modal robustness. We empirically show on three VLMs (LLaVA, MiniGPT-4, and Gemini) and two safety benchmarks (MM-SafetyBench and RedTeam-2K) that BlueSuffix outperforms the baseline defenses by a significant margin. Our BlueSuffix opens up a promising direction for defending VLMs against jailbreak attacks.

arxiv情報

著者 Yunhan Zhao,Xiang Zheng,Lin Luo,Yige Li,Xingjun Ma,Yu-Gang Jiang
発行日 2024-10-28 12:43:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク