Can’t See the Forest for the Trees: Benchmarking Multimodal Safety Awareness for Multimodal LLMs

要約

マルチモーダル大規模言語モデル(MLLM)は、テキストと画像の両方を介したインタラクションを可能にすることで、従来の言語モデルの能力を拡張してきた。しかし、これらのモデルの安全性を確保することは、特にマルチモーダルコンテンツが安全か安全でないかを正確に識別する上で、重要な課題として残っている。この論文では、MMSafeAwareを紹介する。MMSafeAwareは、慎重にキュレートされた1500の画像とプロンプトのペアを用いて、29の安全シナリオにわたってMLLMを評価するように設計された、初の包括的なマルチモーダル安全認識ベンチマークである。MMSafeAwareは、安全でないコンテンツを正しく識別し、有用性を阻害する過敏性を回避するモデルの能力を評価するために、安全でないサブセットと安全すぎるサブセットの両方を含んでいる。MMSafeAwareを用いて広く使われている9つのMLLMを評価した結果、現在のモデルは十分に安全ではなく、しばしば過敏であることが明らかになった。例えば、GPT-4Vは安全でない入力の36.1%を安全であると誤分類し、良性の入力の59.9%を安全でないと誤分類している。さらに、安全認識を向上させるための3つの方法-プロンプティングベースのアプローチ、視覚的コントラストデコーディング、視覚中心の推論微調整-を検討したが、いずれも満足のいく性能は得られなかった。我々の発見は、ロバストな安全認識を持つMLLMの開発における深い課題を浮き彫りにし、この分野における更なる研究の必要性を強調している。今後の研究を促進するため、コードとデータはすべて公開される予定である。

要約(オリジナル)

Multimodal Large Language Models (MLLMs) have expanded the capabilities of traditional language models by enabling interaction through both text and images. However, ensuring the safety of these models remains a significant challenge, particularly in accurately identifying whether multimodal content is safe or unsafe-a capability we term safety awareness. In this paper, we introduce MMSafeAware, the first comprehensive multimodal safety awareness benchmark designed to evaluate MLLMs across 29 safety scenarios with 1500 carefully curated image-prompt pairs. MMSafeAware includes both unsafe and over-safety subsets to assess models abilities to correctly identify unsafe content and avoid over-sensitivity that can hinder helpfulness. Evaluating nine widely used MLLMs using MMSafeAware reveals that current models are not sufficiently safe and often overly sensitive; for example, GPT-4V misclassifies 36.1% of unsafe inputs as safe and 59.9% of benign inputs as unsafe. We further explore three methods to improve safety awareness-prompting-based approaches, visual contrastive decoding, and vision-centric reasoning fine-tuning-but find that none achieve satisfactory performance. Our findings highlight the profound challenges in developing MLLMs with robust safety awareness, underscoring the need for further research in this area. All the code and data will be publicly available to facilitate future research.

arxiv情報

著者 Wenxuan Wang,Xiaoyuan Liu,Kuiyi Gao,Jen-tse Huang,Youliang Yuan,Pinjia He,Shuai Wang,Zhaopeng Tu
発行日 2025-06-03 17:27:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM パーマリンク