要約
大規模言語モデル (LLM) を取り巻くセキュリティ上の懸念は広く調査されていますが、マルチモーダル大規模言語モデル (MLLM) の安全性は依然として十分に研究されていません。
この論文では、あたかもテキスト クエリ自体が悪意があるかのように、マルチモーダル大規模言語モデル (MLLM) がクエリ関連の画像によって簡単に侵害される可能性があることを観察しました。
これに対処するために、このような画像ベースの操作に対する MLLM の安全性が重要な評価を行うために設計された包括的なフレームワークである MM-SafetyBench を紹介します。
13 のシナリオで構成されるデータセットをコンパイルし、合計 5,040 のテキストと画像のペアが作成されました。
12 の最先端モデルにわたる当社の分析により、装備されている LLM が安全に調整されている場合でも、MLLM は当社のアプローチによって引き起こされる侵害の影響を受けやすいことが明らかになりました。
これに応じて、この種の攻撃に対する MLLM の回復力を強化するための、単純かつ効果的なプロンプト戦略を提案します。
私たちの取り組みは、潜在的な悪意のあるエクスプロイトに対するオープンソース MLLM の安全対策を強化および強化するための協調的な取り組みの必要性を強調しています。
リソースは https://github.com/isXinLiu/MM-SafetyBench で入手できます。
要約(オリジナル)
The security concerns surrounding Large Language Models (LLMs) have been extensively explored, yet the safety of Multimodal Large Language Models (MLLMs) remains understudied. In this paper, we observe that Multimodal Large Language Models (MLLMs) can be easily compromised by query-relevant images, as if the text query itself were malicious. To address this, we introduce MM-SafetyBench, a comprehensive framework designed for conducting safety-critical evaluations of MLLMs against such image-based manipulations. We have compiled a dataset comprising 13 scenarios, resulting in a total of 5,040 text-image pairs. Our analysis across 12 state-of-the-art models reveals that MLLMs are susceptible to breaches instigated by our approach, even when the equipped LLMs have been safety-aligned. In response, we propose a straightforward yet effective prompting strategy to enhance the resilience of MLLMs against these types of attacks. Our work underscores the need for a concerted effort to strengthen and enhance the safety measures of open-source MLLMs against potential malicious exploits. The resource is available at https://github.com/isXinLiu/MM-SafetyBench
arxiv情報
著者 | Xin Liu,Yichen Zhu,Jindong Gu,Yunshi Lan,Chao Yang,Yu Qiao |
発行日 | 2024-06-18 14:16:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google