How Many Unicorns Are in This Image? A Safety Evaluation Benchmark for Vision LLMs

要約

この研究は、視覚推論における Vision LLM (VLLM) の可能性に焦点を当てています。
これまでの研究とは異なり、私たちは標準的なパフォーマンスの評価から、配布外 (OOD) 一般化と敵対的堅牢性の両方をカバーする包括的な安全性評価スイートの導入に焦点を移します。
OOD 評価のために、困難な条件下でモデルのパフォーマンスをテストするために設計された、それぞれ 1 つのバリアントを持つ 2 つの新しい VQA データセットを紹介します。
敵対的な堅牢性を調査するにあたり、視覚に関係のない応答を生成する誤解を招く VLLM に対する直接的な攻撃戦略を提案します。
さらに、VLLM の視覚コンポーネントまたは言語コンポーネントをターゲットとした 2 つの脱獄戦略の有効性を評価します。
オープンソースの VLLM から GPT-4V に至るまで、21 の多様なモデルを評価したところ、興味深い観察結果が得られました。1) 現在の VLLM は、視覚情報が制限されていない限り、OOD テキストには苦労しますが、画像には苦労しません。
2) これらの VLLM は、視覚エンコーダのみを欺くことによって簡単に誤解される可能性があり、視覚言語トレーニングによって安全プロトコルが侵害されることがよくあります。
この安全性評価スイートは https://github.com/UCSC-VLAA/vllm-safety-benchmark でリリースされます。

要約(オリジナル)

This work focuses on the potential of Vision LLMs (VLLMs) in visual reasoning. Different from prior studies, we shift our focus from evaluating standard performance to introducing a comprehensive safety evaluation suite, covering both out-of-distribution (OOD) generalization and adversarial robustness. For the OOD evaluation, we present two novel VQA datasets, each with one variant, designed to test model performance under challenging conditions. In exploring adversarial robustness, we propose a straightforward attack strategy for misleading VLLMs to produce visual-unrelated responses. Moreover, we assess the efficacy of two jailbreaking strategies, targeting either the vision or language component of VLLMs. Our evaluation of 21 diverse models, ranging from open-source VLLMs to GPT-4V, yields interesting observations: 1) Current VLLMs struggle with OOD texts but not images, unless the visual information is limited; and 2) These VLLMs can be easily misled by deceiving vision encoders only, and their vision-language training often compromise safety protocols. We release this safety evaluation suite at https://github.com/UCSC-VLAA/vllm-safety-benchmark.

arxiv情報

著者 Haoqin Tu,Chenhang Cui,Zijun Wang,Yiyang Zhou,Bingchen Zhao,Junlin Han,Wangchunshu Zhou,Huaxiu Yao,Cihang Xie
発行日 2023-11-27 18:59:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG パーマリンク