Hallu-PI: Evaluating Hallucination in Multi-modal Large Language Models within Perturbed Inputs

要約

マルチモーダル大規模言語モデル(MLLM)は、様々な視覚言語理解・生成タスクにおいて顕著な性能を示してきた。しかし、MLLMは時として与えられた画像と矛盾する内容を生成することがあり、これは「幻覚」として知られている。先行研究は主に、標準的な、乱れのないベンチマークを用いた幻覚の評価が中心であり、MLLMの幻覚を包括的に評価するために重要な、画像の切り抜きやぼかしといった、実世界のシナリオにおける一般的な乱れのある入力の発生を見落としている。本論文では、このギャップを埋めるために、摂動入力におけるMLLMの幻覚を評価するために設計された最初のベンチマークであるHallu-PIを提案する。具体的には、Hallu-PIは7つの摂動シナリオから構成され、11種類の物体からなる1,260枚の摂動画像を含む。各画像には、存在、属性、関係などの細かな幻覚タイプを含む詳細な注釈が付されている。Hallu-PIを識別タスクと生成タスクの両方に適したものにするため、これらのアノテーションに豊富な質問セットを装備した。GPT-4VやGemini-Pro Visionのような12種類の主流MLLMを用いた広範な実験により、これらのモデルがHallu-PIにおいて有意な幻覚を示すことが実証された。さらに、我々の研究は、MLLMが異なるタイプの幻覚を扱う能力に深刻な偏りがあることを明らかにした。また、摂動シナリオに特化した2つのベースライン、すなわち摂動-リマインダーと摂動-ICLを設計した。我々の研究が、摂動入力を扱う際のMLLMの限界に研究者の注意を喚起し、この問題に対処するためのさらなる研究に拍車をかけることを期待している。我々のコードとデータセットはhttps://github.com/NJUNLP/Hallu-PI。

要約(オリジナル)

Multi-modal Large Language Models (MLLMs) have demonstrated remarkable performance on various visual-language understanding and generation tasks. However, MLLMs occasionally generate content inconsistent with the given images, which is known as ‘hallucination’. Prior works primarily center on evaluating hallucination using standard, unperturbed benchmarks, which overlook the prevalent occurrence of perturbed inputs in real-world scenarios-such as image cropping or blurring-that are critical for a comprehensive assessment of MLLMs’ hallucination. In this paper, to bridge this gap, we propose Hallu-PI, the first benchmark designed to evaluate Hallucination in MLLMs within Perturbed Inputs. Specifically, Hallu-PI consists of seven perturbed scenarios, containing 1,260 perturbed images from 11 object types. Each image is accompanied by detailed annotations, which include fine-grained hallucination types, such as existence, attribute, and relation. We equip these annotations with a rich set of questions, making Hallu-PI suitable for both discriminative and generative tasks. Extensive experiments on 12 mainstream MLLMs, such as GPT-4V and Gemini-Pro Vision, demonstrate that these models exhibit significant hallucinations on Hallu-PI, which is not observed in unperturbed scenarios. Furthermore, our research reveals a severe bias in MLLMs’ ability to handle different types of hallucinations. We also design two baselines specifically for perturbed scenarios, namely Perturbed-Reminder and Perturbed-ICL. We hope that our study will bring researchers’ attention to the limitations of MLLMs when dealing with perturbed inputs, and spur further investigations to address this issue. Our code and datasets are publicly available at https://github.com/NJUNLP/Hallu-PI.

arxiv情報

著者 Peng Ding,Jingyu Wu,Jun Kuang,Dan Ma,Xuezhi Cao,Xunliang Cai,Shi Chen,Jiajun Chen,Shujian Huang
発行日 2024-08-02 16:07:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.MM パーマリンク