How Easy is It to Fool Your Multimodal LLMs? An Empirical Analysis on Deceptive Prompts

要約

マルチモーダル大規模言語モデル (MLLM) の目覚ましい進歩によっても、特にプロンプ​​ト内の欺瞞的な情報を処理するコンテキストにおいて、課題に影響されないわけではなく、そのような状況下では幻覚的な反応が生じます。
この脆弱性を定量的に評価するために、存在しないオブジェクト、オブジェクトの数、空間的関係、視覚的な混乱など 6 つのカテゴリに分類された 850 個のテスト サンプルを含む慎重に厳選されたベンチマークである MAD-Bench を紹介します。
GPT-4V、Gemini-Pro から、LLaVA-1.5 や CogVLM などのオープンソース モデルに至るまで、一般的な MLLM の包括的な分析を提供します。
経験的に、GPT-4V と他のモデルの間には大きなパフォーマンスのギャップがあることが観察されています。
また、LRV-命令や LLaVA-RLHF などの以前の堅牢な命令調整モデルは、この新しいベンチマークでは効果がありません。
GPT-4V は MAD-Bench で 75.02% の精度を達成しますが、実験における他のモデルの精度は 5% ~ 35% の範囲です。
さらに、モデルに質問に答える前によく考えるよう促すために、欺瞞的なプロンプトに追加の段落を追加するという解決策を提案します。
驚くべきことに、この単純な方法により精度が 2 倍になることもあります。
しかし、絶対数は満足するにはまだ低すぎます。
私たちは、MAD-Bench が、欺瞞的なプロンプトに対するモデルの回復力を強化するためのさらなる研究を促進する貴重なベンチマークとして機能することを願っています。

要約(オリジナル)

The remarkable advancements in Multimodal Large Language Models (MLLMs) have not rendered them immune to challenges, particularly in the context of handling deceptive information in prompts, thus producing hallucinated responses under such conditions. To quantitatively assess this vulnerability, we present MAD-Bench, a carefully curated benchmark that contains 850 test samples divided into 6 categories, such as non-existent objects, count of objects, spatial relationship, and visual confusion. We provide a comprehensive analysis of popular MLLMs, ranging from GPT-4V, Gemini-Pro, to open-sourced models, such as LLaVA-1.5 and CogVLM. Empirically, we observe significant performance gaps between GPT-4V and other models; and previous robust instruction-tuned models, such as LRV-Instruction and LLaVA-RLHF, are not effective on this new benchmark. While GPT-4V achieves 75.02% accuracy on MAD-Bench, the accuracy of any other model in our experiments ranges from 5% to 35%. We further propose a remedy that adds an additional paragraph to the deceptive prompts to encourage models to think twice before answering the question. Surprisingly, this simple method can even double the accuracy; however, the absolute numbers are still too low to be satisfactory. We hope MAD-Bench can serve as a valuable benchmark to stimulate further research to enhance models’ resilience against deceptive prompts.

arxiv情報

著者 Yusu Qian,Haotian Zhang,Yinfei Yang,Zhe Gan
発行日 2024-02-20 18:31:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク