VLSBench: Unveiling Visual Leakage in Multimodal Safety

要約

マルチモーダル大規模言語モデル (MLLM) の安全性に関する懸念は、さまざまなアプリケーションにおいて徐々に重要な問題になってきています。
驚くべきことに、これまでの研究では、テキストの非学習を使用して MLLM を調整すると、画像とテキストのペアで訓練された MLLM と同等の安全性能が達成されるという直感に反する現象が示されています。
このような直感に反する現象を説明するために、既存のマルチモーダル安全ベンチマークで視覚的安全情報漏洩 (VSIL) の問題を発見しました。つまり、画像内の潜在的に危険で機密性の高いコンテンツがテキストクエリで明らかになりました。
このようにして、MLLM はテキスト クエリに従って、これらの機密性の高いテキスト画像クエリを簡単に拒否できます。
ただし、VSIL を使用しない画像とテキストのペアは現実のシナリオでは一般的であり、既存のマルチモーダル安全ベンチマークでは無視されています。
この目的を達成するために、2.4k の画像とテキストのペアを使用して画像からテキスト クエリへの視覚的安全性の漏洩を防ぐ、マルチモーダルな視覚的漏洩のない安全性ベンチマーク (VLSBench) を構築します。
実験結果は、VLSBench が、LLaVA、Qwen2-VL、Llama3.2-Vision、GPT-4o などのオープンソースとクローズソースの MLLM の両方に重大な課題をもたらすことを示しています。
この調査では、VSIL を使用したマルチモーダル安全シナリオにはテキストの配置で十分である一方、VSIL を使用しないマルチモーダル安全シナリオではマルチモーダル配置の方が有望なソリューションであることを示しています。
コードとデータは http://hxhcreate.github.io/VLSBench でご覧ください。

要約(オリジナル)

Safety concerns of Multimodal large language models (MLLMs) have gradually become an important problem in various applications. Surprisingly, previous works indicate a counter-intuitive phenomenon that using textual unlearning to align MLLMs achieves comparable safety performances with MLLMs trained with image-text pairs. To explain such a counter-intuitive phenomenon, we discover a visual safety information leakage (VSIL) problem in existing multimodal safety benchmarks, i.e., the potentially risky and sensitive content in the image has been revealed in the textual query. In this way, MLLMs can easily refuse these sensitive text-image queries according to textual queries. However, image-text pairs without VSIL are common in real-world scenarios and are overlooked by existing multimodal safety benchmarks. To this end, we construct multimodal visual leakless safety benchmark (VLSBench) preventing visual safety leakage from image to textual query with 2.4k image-text pairs. Experimental results indicate that VLSBench poses a significant challenge to both open-source and close-source MLLMs, including LLaVA, Qwen2-VL, Llama3.2-Vision, and GPT-4o. This study demonstrates that textual alignment is enough for multimodal safety scenarios with VSIL, while multimodal alignment is a more promising solution for multimodal safety scenarios without VSIL. Please see our code and data at: http://hxhcreate.github.io/VLSBench

arxiv情報

著者 Xuhao Hu,Dongrui Liu,Hao Li,Xuanjing Huang,Jing Shao
発行日 2024-11-29 18:56:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CR, cs.CV パーマリンク