Safe + Safe = Unsafe? Exploring How Safe Images Can Be Exploited to Jailbreak Large Vision-Language Models

要約

Large Vision-Language Model (LVLM) の最近の進歩により、複数のモダリティにわたる強力な推論能力が実証され、さまざまな現実世界のアプリケーションで大きな進歩が達成されました。
この大きな成功にもかかわらず、LVLM の安全ガードレールは、視覚モダリティによって導入される予期せぬ領域をカバーできない可能性があります。
既存の研究は主に、アライメント防御を回避するように設計された慎重に作成された画像ベースのジェイルブレイクを介して、LVLM を誘発して有害な応答を生成することに焦点を当てています。
この研究では、安全なイメージを追加の安全なイメージやプロンプトと組み合わせると、同じ脱獄の結果を達成するために悪用できることを明らかにしました。
これは、LVLM の 2 つの基本的な特性、つまり普遍的な推論機能と安全性の雪だるま式効果に由来しています。
これらの洞察に基づいて、LVLM をジェイルブレイクするためのエージェントの自律的およびツール使用能力を活用する新しいエージェントベースのフレームワークである Safety Snowball Agent (SSA) を提案します。
SSA は 2 つの主要な段階を通じて動作します。(1) 初期応答の生成では、ツールは潜在的な有害な意図に基づいてジェイルブレイク イメージを生成または取得します。(2) 有害な雪だるま式では、洗練された後続のプロンプトが徐々に有害な出力を誘発します。
私たちの実験では、ほぼあらゆる画像を使用して LVLM に安全でないコンテンツを生成させることができ、最新の LVLM に対して高い脱獄成功率を達成できることが実証されました。
アライメントの欠陥を利用したこれまでの研究とは異なり、私たちの研究は LVLM の固有の特性を活用しており、生成マルチモーダル システムの安全性を強化する上で大きな課題を提示しています。
私たちのコードは \url{https://github.com/gzcch/Safety_Snowball_Agent} で入手できます。

要約(オリジナル)

Recent advances in Large Vision-Language Models (LVLMs) have showcased strong reasoning abilities across multiple modalities, achieving significant breakthroughs in various real-world applications. Despite this great success, the safety guardrail of LVLMs may not cover the unforeseen domains introduced by the visual modality. Existing studies primarily focus on eliciting LVLMs to generate harmful responses via carefully crafted image-based jailbreaks designed to bypass alignment defenses. In this study, we reveal that a safe image can be exploited to achieve the same jailbreak consequence when combined with additional safe images and prompts. This stems from two fundamental properties of LVLMs: universal reasoning capabilities and safety snowball effect. Building on these insights, we propose Safety Snowball Agent (SSA), a novel agent-based framework leveraging agents’ autonomous and tool-using abilities to jailbreak LVLMs. SSA operates through two principal stages: (1) initial response generation, where tools generate or retrieve jailbreak images based on potential harmful intents, and (2) harmful snowballing, where refined subsequent prompts induce progressively harmful outputs. Our experiments demonstrate that \ours can use nearly any image to induce LVLMs to produce unsafe content, achieving high success jailbreaking rates against the latest LVLMs. Unlike prior works that exploit alignment flaws, \ours leverages the inherent properties of LVLMs, presenting a profound challenge for enforcing safety in generative multimodal systems. Our code is avaliable at \url{https://github.com/gzcch/Safety_Snowball_Agent}.

arxiv情報

著者 Chenhang Cui,Gelei Deng,An Zhang,Jingnan Zheng,Yicong Li,Lianli Gao,Tianwei Zhang,Tat-Seng Chua
発行日 2024-11-18 11:58:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク