要約
マルチモーダル大規模言語モデル (MLLM) の優れた能力に惹かれ、日常業務の効率を向上させるために一般の人々が MLLM を活用することが増えています。
それにもかかわらず、安全でない命令に対する MLLM の脆弱性は、これらのモデルが現実世界のシナリオに展開されるときに、大きな安全上のリスクをもたらします。
この論文では、画像とテキストにおける MLLM の安全性の評価、攻撃、防御に関する現在の取り組みを体系的に調査します。
まずはMLLMの概要を画像と文章で紹介し、安全性について理解することで、調査の詳細な範囲を研究者が理解するのに役立ちます。
次に、MLLM の安全性を測定するための評価データセットと指標を確認します。
次に、MLLM の安全性に関連する攻撃と防御のテクニックを包括的に紹介します。
最後に、いくつかの未解決の問題を分析し、有望な研究の方向性について議論します。
最新の論文は https://github.com/isXinLiu/MLLM-Safety-Collection に継続的に収集されています。
要約(オリジナル)
Attracted by the impressive power of Multimodal Large Language Models (MLLMs), the public is increasingly utilizing them to improve the efficiency of daily work. Nonetheless, the vulnerabilities of MLLMs to unsafe instructions bring huge safety risks when these models are deployed in real-world scenarios. In this paper, we systematically survey current efforts on the evaluation, attack, and defense of MLLMs’ safety on images and text. We begin with introducing the overview of MLLMs on images and text and understanding of safety, which helps researchers know the detailed scope of our survey. Then, we review the evaluation datasets and metrics for measuring the safety of MLLMs. Next, we comprehensively present attack and defense techniques related to MLLMs’ safety. Finally, we analyze several unsolved issues and discuss promising research directions. The latest papers are continually collected at https://github.com/isXinLiu/MLLM-Safety-Collection.
arxiv情報
著者 | Xin Liu,Yichen Zhu,Yunshi Lan,Chao Yang,Yu Qiao |
発行日 | 2024-06-20 15:06:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google