An LLM-free Multi-dimensional Benchmark for MLLMs Hallucination Evaluation

要約

マルチモーダル タスクは大幅に進歩しているにもかかわらず、現在のマルチモーダル大規模言語モデル (MLLM) は、有害な結果を引き起こす可能性がある幻覚という重大な課題に直面しています。
したがって、MLLM の幻覚を評価することは、モデルの改善と実際のアプリケーションの展開においてますます重要になっています。
これまでの研究では、評価コストが高く(人間や高度な LLM に依存するなど)、評価の要素が不十分である(幻覚やタスクの種類など)という点で限界がありました。
この論文では、物体の存在、物体の属性、物体関係の幻覚を含む生成タスクと弁別タスクの両方を評価するために使用できる、LLMフリーの多次元ベンチマークAMBERを提案します。
AMBERをベースに、低コストで効率的な評価パイプラインを設計します。
さらに、GPT-4V(ision)を含む主流のMLLMの包括的な評価と詳細な分析を行い、幻覚を軽減するためのガイドラインの提案も行います。
AMBER のデータとコードは https://github.com/junyangwang0410/AMBER で入手できます。

要約(オリジナル)

Despite making significant progress in multi-modal tasks, current Multi-modal Large Language Models (MLLMs) encounter the significant challenge of hallucination, which may lead to harmful consequences. Therefore, evaluating MLLMs’ hallucinations is becoming increasingly important in model improvement and practical application deployment. Previous works are limited in high evaluation costs (e.g., relying on humans or advanced LLMs) and insufficient evaluation dimensions (e.g., types of hallucination and task). In this paper, we propose an LLM-free multi-dimensional benchmark AMBER, which can be used to evaluate both generative task and discriminative task including object existence, object attribute and object relation hallucination. Based on AMBER, we design a low-cost and efficient evaluation pipeline. Additionally, we conduct a comprehensive evaluation and detailed analysis of mainstream MLLMs including GPT-4V(ision), and also give guideline suggestions for mitigating hallucinations. The data and code of AMBER are available at https://github.com/junyangwang0410/AMBER.

arxiv情報

著者 Junyang Wang,Yuhang Wang,Guohai Xu,Jing Zhang,Yukai Gu,Haitao Jia,Ming Yan,Ji Zhang,Jitao Sang
発行日 2023-11-13 15:25:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク