Hallu-PI: Evaluating Hallucination in Multi-modal Large Language Models within Perturbed Inputs

要約

マルチモーダル大規模言語モデル (MLLM) は、さまざまな視覚言語の理解および生成タスクにおいて顕著なパフォーマンスを実証しています。
ただし、MLLM は、「幻覚」として知られる、指定された画像と一致しないコンテンツを生成することがあります。
これまでの研究は主に、標準的な摂動のないベンチマークを使用して幻覚を評価することに重点を置いており、MLLM の幻覚の包括的な評価に重要な、画像のトリミングやぼかしなど、現実世界のシナリオで広く発生する摂動入力を見逃していました。
この論文では、このギャップを埋めるために、摂動入力内で MLLM の幻覚を評価するように設計された最初のベンチマークである Hallu-PI を提案します。
具体的には、Hallu-PI は 7 つの摂動シナリオで構成され、11 種類のオブジェクトからの 1,260 枚の摂動画像が含まれています。
各画像には、存在、属性、関係などのきめ細かい幻覚の種類を含む詳細な注釈が付いています。
これらのアノテーションには豊富な質問セットが備わっており、Hallu-PI を識別タスクと生成タスクの両方に適したものにしています。
GPT-4V や Gemini-Pro Vision などの 12 の主流 MLLM に関する広範な実験により、これらのモデルは、摂動のないシナリオでは観察されない、Hallu-PI で重大な幻覚を示すことが実証されました。
さらに、私たちの研究は、さまざまな種類の幻覚に対処するMLLMの能力に重大な偏りがあることを明らかにしました。
また、摂動シナリオに特化した 2 つのベースライン、つまり Perturbed-Reminder と Perturbed-ICL を設計します。
私たちは、私たちの研究が、摂動された入力を扱う際の MLLM の限界に研究者に注目を集め、この問題に対処するためのさらなる調査に拍車をかけることを願っています。
私たちのコードとデータセットは https://github.com/NJUNLP/Hallu-PI で公開されています。

要約(オリジナル)

Multi-modal Large Language Models (MLLMs) have demonstrated remarkable performance on various visual-language understanding and generation tasks. However, MLLMs occasionally generate content inconsistent with the given images, which is known as ‘hallucination’. Prior works primarily center on evaluating hallucination using standard, unperturbed benchmarks, which overlook the prevalent occurrence of perturbed inputs in real-world scenarios-such as image cropping or blurring-that are critical for a comprehensive assessment of MLLMs’ hallucination. In this paper, to bridge this gap, we propose Hallu-PI, the first benchmark designed to evaluate Hallucination in MLLMs within Perturbed Inputs. Specifically, Hallu-PI consists of seven perturbed scenarios, containing 1,260 perturbed images from 11 object types. Each image is accompanied by detailed annotations, which include fine-grained hallucination types, such as existence, attribute, and relation. We equip these annotations with a rich set of questions, making Hallu-PI suitable for both discriminative and generative tasks. Extensive experiments on 12 mainstream MLLMs, such as GPT-4V and Gemini-Pro Vision, demonstrate that these models exhibit significant hallucinations on Hallu-PI, which is not observed in unperturbed scenarios. Furthermore, our research reveals a severe bias in MLLMs’ ability to handle different types of hallucinations. We also design two baselines specifically for perturbed scenarios, namely Perturbed-Reminder and Perturbed-ICL. We hope that our study will bring researchers’ attention to the limitations of MLLMs when dealing with perturbed inputs, and spur further investigations to address this issue. Our code and datasets are publicly available at https://github.com/NJUNLP/Hallu-PI.

arxiv情報

著者 Peng Ding,Jingyu Wu,Jun Kuang,Dan Ma,Xuezhi Cao,Xunliang Cai,Shi Chen,Jiajun Chen,Shujian Huang
発行日 2024-08-05 02:14:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM パーマリンク