LongHalQA: Long-Context Hallucination Evaluation for MultiModal Large Language Models

要約

幻覚は、マルチモーダル大規模言語モデル (MLLM) が、もっともらしいが画像と一致しないテキスト応答を生成する傾向がある現象であり、さまざまな MLLM 関連アプリケーションにおける大きな障害の 1 つとなっています。
オブジェクトの存在についての差別的な質問を提起したり、MLLM から生成されたテキストをスコアリングする LLM エバリュエーターを導入したりすることによって、MLLM の幻覚レベルを測定するためにいくつかのベンチマークが作成されています。
ただし、識別データには現実世界のテキストと一致しない単純な質問が主に含まれているのに対し、生成データには計算量が多く、固有のランダム性により不安定な LLM 評価器が含まれています。
私たちは、6K の長さの複雑な幻覚テキストで構成される LLM フリーの幻覚ベンチマークである LongHalQA を提案します。
LongHalQA は、物体/画像の説明と平均 14/130 ワードと 189 ワードのマルチラウンド会話を含む、現実世界のシナリオとよく一致する GPT4V 生成の幻覚データを特徴としています。
幻覚弁別と幻覚補完という 2 つの新しいタスクが導入され、弁別評価と生成評価の両方が 1 つの多肢選択式質問フォームに統合され、LLM 評価者を必要とせずに、より信頼性が高く効率的な評価が可能になります。
さらに、長く複雑な質問と説明を含む将来の幻覚ベンチマークの構築を大幅に容易にする高度なパイプラインを提案します。
最近の複数の MLLM に対する広範な実験により、長く複雑なテキスト データによる幻覚を処理する際のさまざまな新たな課題が明らかになりました。
データセットと評価コードは https://github.com/hanqiu-hq/LongHalQA で入手できます。

要約(オリジナル)

Hallucination, a phenomenon where multimodal large language models~(MLLMs) tend to generate textual responses that are plausible but unaligned with the image, has become one major hurdle in various MLLM-related applications. Several benchmarks have been created to gauge the hallucination levels of MLLMs, by either raising discriminative questions about the existence of objects or introducing LLM evaluators to score the generated text from MLLMs. However, the discriminative data largely involve simple questions that are not aligned with real-world text, while the generative data involve LLM evaluators that are computationally intensive and unstable due to their inherent randomness. We propose LongHalQA, an LLM-free hallucination benchmark that comprises 6K long and complex hallucination text. LongHalQA is featured by GPT4V-generated hallucinatory data that are well aligned with real-world scenarios, including object/image descriptions and multi-round conversations with 14/130 words and 189 words, respectively, on average. It introduces two new tasks, hallucination discrimination and hallucination completion, unifying both discriminative and generative evaluations in a single multiple-choice-question form and leading to more reliable and efficient evaluations without the need for LLM evaluators. Further, we propose an advanced pipeline that greatly facilitates the construction of future hallucination benchmarks with long and complex questions and descriptions. Extensive experiments over multiple recent MLLMs reveal various new challenges when they are handling hallucinations with long and complex textual data. Dataset and evaluation code are available at https://github.com/hanqiu-hq/LongHalQA.

arxiv情報

著者 Han Qiu,Jiaxing Huang,Peng Gao,Qin Qi,Xiaoqin Zhang,Ling Shao,Shijian Lu
発行日 2024-10-15 16:10:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク