要約
画像およびテキスト入力を処理するビジョン言語モデル (VLM) は、チャット アシスタントやその他の消費者向け AI アプリケーションにますます統合されています。
しかし、適切な保護策がなければ、VLM は有害なアドバイス (例: 自傷行為の方法) を与えたり、危険な行動 (例: 薬物の摂取) を奨励したりする可能性があります。
これらの明らかな危険にもかかわらず、これまでのところ、VLM の安全性とマルチモーダル入力によって生じる新たなリスクを評価した研究はほとんどありません。
このギャップに対処するために、VLM 用のマルチモーダル安全性テスト スイートである MSTS を導入します。
MSTS は、40 のきめ細かい危険カテゴリにわたる 400 のテスト プロンプトで構成されます。
各テスト プロンプトはテキストと画像で構成されており、これらを組み合わせた場合にのみ、安全でない意味が完全に明らかになります。
MSTS を使用すると、いくつかのオープン VLM で明らかな安全上の問題が見つかりました。
また、一部の VLM は偶然に安全であることもわかりました。これは、VLM は単純なテスト プロンプトさえ理解できないため安全であることを意味します。
MSTS を 10 か国語に翻訳し、安全でないモデル応答の割合を高めるために英語以外のプロンプトを表示します。
また、マルチモーダル プロンプトではなくテキストのみでテストした場合にモデルがより安全であることも示します。
最後に、VLM の安全性評価の自動化を検討し、最良の安全性分類子でさえ不足していることを発見しました。
要約(オリジナル)
Vision-language models (VLMs), which process image and text inputs, are increasingly integrated into chat assistants and other consumer AI applications. Without proper safeguards, however, VLMs may give harmful advice (e.g. how to self-harm) or encourage unsafe behaviours (e.g. to consume drugs). Despite these clear hazards, little work so far has evaluated VLM safety and the novel risks created by multimodal inputs. To address this gap, we introduce MSTS, a Multimodal Safety Test Suite for VLMs. MSTS comprises 400 test prompts across 40 fine-grained hazard categories. Each test prompt consists of a text and an image that only in combination reveal their full unsafe meaning. With MSTS, we find clear safety issues in several open VLMs. We also find some VLMs to be safe by accident, meaning that they are safe because they fail to understand even simple test prompts. We translate MSTS into ten languages, showing non-English prompts to increase the rate of unsafe model responses. We also show models to be safer when tested with text only rather than multimodal prompts. Finally, we explore the automation of VLM safety assessments, finding even the best safety classifiers to be lacking.
arxiv情報
著者 | Paul Röttger,Giuseppe Attanasio,Felix Friedrich,Janis Goldzycher,Alicia Parrish,Rishabh Bhardwaj,Chiara Di Bonaventura,Roman Eng,Gaia El Khoury Geagea,Sujata Goswami,Jieun Han,Dirk Hovy,Seogyeong Jeong,Paloma Jeretič,Flor Miriam Plaza-del-Arco,Donya Rooein,Patrick Schramowski,Anastassia Shaitarova,Xudong Shen,Richard Willats,Andrea Zugarini,Bertie Vidgen |
発行日 | 2025-01-17 09:22:35+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google