UniGuard: Towards Universal Safety Guardrails for Jailbreak Attacks on Multimodal Large Language Models

要約

マルチモーダル大手言語モデル(MLLM)は視覚言語の理解に革命をもたらしましたが、マルチモーダルの脱獄攻撃に対して脆弱なままであり、敵対的なインプットが細心の注意を払って作られ、有害または不適切な反応を引き出すことができます。
Uniguardを提案します。ユニグアードは、ユニモーダルとクロスモーダルの有害なシグナルを共同で考慮している新しいマルチモーダル安全ガードレールです。
Uniguardは、マルチモーダルガードレールを訓練して、有毒なコーパスで有害な反応を生成する可能性を最小限に抑えます。
ガードレールは、最小限の計算コストで推論中に任意の入力プロンプトにシームレスに適用できます。
広範な実験は、複数のモダリティ、攻撃戦略、およびLlava、Gemini Pro、GPT-4O、MINIGPT-4、およびInstructBlipなどの複数の最先端のMLLMにわたるユニグードの一般化可能性を示しています。
特に、この堅牢な防御メカニズムは、モデルの全体的な視覚言語理解能力を維持しています。

要約(オリジナル)

Multimodal large language models (MLLMs) have revolutionized vision-language understanding but remain vulnerable to multimodal jailbreak attacks, where adversarial inputs are meticulously crafted to elicit harmful or inappropriate responses. We propose UniGuard, a novel multimodal safety guardrail that jointly considers the unimodal and cross-modal harmful signals. UniGuard trains a multimodal guardrail to minimize the likelihood of generating harmful responses in a toxic corpus. The guardrail can be seamlessly applied to any input prompt during inference with minimal computational costs. Extensive experiments demonstrate the generalizability of UniGuard across multiple modalities, attack strategies, and multiple state-of-the-art MLLMs, including LLaVA, Gemini Pro, GPT-4o, MiniGPT-4, and InstructBLIP. Notably, this robust defense mechanism maintains the models’ overall vision-language understanding capabilities.

arxiv情報

著者 Sejoon Oh,Yiqiao Jin,Megha Sharma,Donghyun Kim,Eric Ma,Gaurav Verma,Srijan Kumar
発行日 2025-01-31 16:47:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク