要約
この論文では、マルチモーダル大規模言語モデル (MLLM) の無害性アライメント問題を研究します。
我々は、代表的な MLLM の無害化性能の体系的な実証分析を実施し、画像入力が MLLM の位置合わせの脆弱性を引き起こすことを明らかにしました。
これに触発されて、私たちは HADES という名前の新しい脱獄方法を提案します。これは、綿密に作成された画像を使用して、テキスト入力内の悪意のある意図の有害性を隠蔽し、増幅します。
実験結果は、HADES が既存の MLLM を効果的に脱獄できることを示しており、LLaVA-1.5 では 90.26%、Gemini Pro Vision では 71.60% の平均攻撃成功率 (ASR) を達成しています。
コードとデータは https://github.com/RUCAIBox/HADES で入手できます。
要約(オリジナル)
In this paper, we study the harmlessness alignment problem of multimodal large language models (MLLMs). We conduct a systematic empirical analysis of the harmlessness performance of representative MLLMs and reveal that the image input poses the alignment vulnerability of MLLMs. Inspired by this, we propose a novel jailbreak method named HADES, which hides and amplifies the harmfulness of the malicious intent within the text input, using meticulously crafted images. Experimental results show that HADES can effectively jailbreak existing MLLMs, which achieves an average Attack Success Rate (ASR) of 90.26% for LLaVA-1.5 and 71.60% for Gemini Pro Vision. Our code and data are available at https://github.com/RUCAIBox/HADES.
arxiv情報
著者 | Yifan Li,Hangyu Guo,Kun Zhou,Wayne Xin Zhao,Ji-Rong Wen |
発行日 | 2025-01-13 03:30:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google