JailBreakV-28K: A Benchmark for Assessing the Robustness of MultiModal Large Language Models against Jailbreak Attacks

要約

マルチモーダル大規模言語モデル (MLLM) の急速な進歩に伴い、これらのモデルを人間の価値観に合わせながら悪意のある入力から保護することが重要な課題として浮上しています。
この論文では、大規模言語モデル (LLM) のジェイルブレイクに成功する技術が、MLLM のジェイルブレイクにも同様に効果的であるかどうかという重要かつ未解明の疑問を調査します。
この問題を調査するために、LLM ジェイルブレイク技術の MLLM への移転可能性を評価するように設計された先駆的なベンチマークである JailBreakV-28K を紹介します。これにより、さまざまなジェイルブレイク攻撃に対する MLLM の堅牢性が評価されます。
この論文でも提案されている 2,000 件の悪意のあるクエリのデータセットを利用して、LLM に対する高度な脱獄攻撃を使用した 20,000 件のテキストベースの脱獄プロンプトと、最近の MLLM 脱獄攻撃からの 8,000 件の画像ベースの脱獄入力を生成します。
包括的なデータセットには、さまざまな敵対シナリオにわたる 28,000 のテスト ケースが含まれています。
10 のオープンソース MLLM を評価したところ、LLM から転送された攻撃の攻撃成功率 (ASR) が著しく高いことが明らかになり、テキスト処理機能に起因する MLLM の重大な脆弱性が浮き彫りになりました。
私たちの調査結果は、テキスト入力と視覚入力の両方からの MLLM の位置合わせの脆弱性に対処するための将来の研究が緊急に必要であることを強調しています。

要約(オリジナル)

With the rapid advancements in Multimodal Large Language Models (MLLMs), securing these models against malicious inputs while aligning them with human values has emerged as a critical challenge. In this paper, we investigate an important and unexplored question of whether techniques that successfully jailbreak Large Language Models (LLMs) can be equally effective in jailbreaking MLLMs. To explore this issue, we introduce JailBreakV-28K, a pioneering benchmark designed to assess the transferability of LLM jailbreak techniques to MLLMs, thereby evaluating the robustness of MLLMs against diverse jailbreak attacks. Utilizing a dataset of 2, 000 malicious queries that is also proposed in this paper, we generate 20, 000 text-based jailbreak prompts using advanced jailbreak attacks on LLMs, alongside 8, 000 image-based jailbreak inputs from recent MLLMs jailbreak attacks, our comprehensive dataset includes 28, 000 test cases across a spectrum of adversarial scenarios. Our evaluation of 10 open-source MLLMs reveals a notably high Attack Success Rate (ASR) for attacks transferred from LLMs, highlighting a critical vulnerability in MLLMs that stems from their text-processing capabilities. Our findings underscore the urgent need for future research to address alignment vulnerabilities in MLLMs from both textual and visual inputs.

arxiv情報

著者 Weidi Luo,Siyuan Ma,Xiaogeng Liu,Xiaoyu Guo,Chaowei Xiao
発行日 2024-04-18 17:11:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CR パーマリンク