Jailbreaking Multimodal Large Language Models via Shuffle Inconsistency

要約

マルチモーダル大規模言語モデル (MLLM) は目覚ましいパフォーマンスを達成し、商用アプリケーションで実用化されていますが、安全メカニズムの潜在的な脆弱性がまだ残っています。
ジェイルブレイク攻撃は、安全メカニズムを回避し、MLLM の潜在的なリスクを発見することを目的としたレッド チーム手法です。
既存の MLLM の脱獄方法は、多くの場合、複雑な最適化方法や慎重に設計された画像やテキストのプロンプトによってモデルの安全メカニズムをバイパスします。
ある程度の進歩を遂げたにもかかわらず、商用のクローズドソース MLLM に対する攻撃の成功率は低いです。
これまでの研究とは異なり、MLLM の理解能力とシャッフルされた有害な命令に対する安全能力の間にはシャッフルの不一致が存在することが経験的にわかりました。
つまり、理解能力の観点から見ると、MLLM はシャッフルされた有害なテキストと画像の命令をよく理解できます。
しかし、安全能力の観点からシャッフルされた有害な命令によって簡単に回避され、有害な反応が引き起こされる可能性があります。
次に、SI- Attack という名前のテキスト画像ジェイルブレイク攻撃を革新的に提案します。
具体的には、シャッフルの不一致を最大限に活用し、シャッフルのランダム性を克服するために、クエリベースのブラックボックス最適化手法を適用し、有害な判定モデルのフィードバックに基づいて最も有害なシャッフル入力を選択します。
一連の実験では、SI- Attack が 3 つのベンチマークで攻撃のパフォーマンスを向上できることが示されています。
特に、SI-アタックは、GPT-4o や Claude-3.5-Sonnet などの商用 MLLM の攻撃成功率を明らかに向上させることができます。

要約(オリジナル)

Multimodal Large Language Models (MLLMs) have achieved impressive performance and have been put into practical use in commercial applications, but they still have potential safety mechanism vulnerabilities. Jailbreak attacks are red teaming methods that aim to bypass safety mechanisms and discover MLLMs’ potential risks. Existing MLLMs’ jailbreak methods often bypass the model’s safety mechanism through complex optimization methods or carefully designed image and text prompts. Despite achieving some progress, they have a low attack success rate on commercial closed-source MLLMs. Unlike previous research, we empirically find that there exists a Shuffle Inconsistency between MLLMs’ comprehension ability and safety ability for the shuffled harmful instruction. That is, from the perspective of comprehension ability, MLLMs can understand the shuffled harmful text-image instructions well. However, they can be easily bypassed by the shuffled harmful instructions from the perspective of safety ability, leading to harmful responses. Then we innovatively propose a text-image jailbreak attack named SI-Attack. Specifically, to fully utilize the Shuffle Inconsistency and overcome the shuffle randomness, we apply a query-based black-box optimization method to select the most harmful shuffled inputs based on the feedback of the toxic judge model. A series of experiments show that SI-Attack can improve the attack’s performance on three benchmarks. In particular, SI-Attack can obviously improve the attack success rate for commercial MLLMs such as GPT-4o or Claude-3.5-Sonnet.

arxiv情報

著者 Shiji Zhao,Ranjie Duan,Fengxiang Wang,Chi Chen,Caixin Kang,Jialing Tao,YueFeng Chen,Hui Xue,Xingxing Wei
発行日 2025-01-09 02:47:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CR パーマリンク