AMBER: An LLM-free Multi-dimensional Benchmark for MLLMs Hallucination Evaluation

要約

マルチモーダル タスクは大幅に進歩しているにもかかわらず、現在のマルチモーダル大規模言語モデル (MLLM) は、有害な結果を引き起こす可能性がある幻覚という重大な課題に直面しています。
したがって、MLLM の幻覚を評価することは、モデルの改善と実際のアプリケーションの展開においてますます重要になっています。
これまでの研究では、評価コストが高く(人間や高度な LLM に依存するなど)、評価の要素が不十分である(タスクや幻覚の種類など)という制限がありました。
この論文では、LLMフリーの多次元ベンチマークAMBERを提案します。このベンチマークは、存在、属性、関係の幻覚を含む生成タスクと弁別タスクの両方を評価するために使用できます。
AMBERをベースに、低コストで効率的な評価パイプラインを設計します。
さらに、GPT-4V(ision)を含む主流のMLLMの包括的な評価と詳細な分析を行い、幻覚を軽減するためのガイドラインの提案も行います。
AMBER のデータとコードは https://github.com/junyangwang0410/AMBER で入手できます。

要約(オリジナル)

Despite making significant progress in multi-modal tasks, current Multi-modal Large Language Models (MLLMs) encounter the significant challenge of hallucinations, which may lead to harmful consequences. Therefore, evaluating MLLMs’ hallucinations is becoming increasingly important in model improvement and practical application deployment. Previous works are limited in high evaluation costs (e.g., relying on humans or advanced LLMs) and insufficient evaluation dimensions (e.g., types of tasks and hallucinations). In this paper, we propose an LLM-free multi-dimensional benchmark AMBER, which can be used to evaluate both generative task and discriminative task including existence, attribute and relation hallucination. Based on AMBER, we design a low-cost and efficient evaluation pipeline. Additionally, we conduct a comprehensive evaluation and detailed analysis of mainstream MLLMs including GPT-4V(ision), and also give guideline suggestions for mitigating hallucinations. The data and code of AMBER are available at https://github.com/junyangwang0410/AMBER.

arxiv情報

著者 Junyang Wang,Yuhang Wang,Guohai Xu,Jing Zhang,Yukai Gu,Haitao Jia,Jiaqi Wang,Haiyang Xu,Ming Yan,Ji Zhang,Jitao Sang
発行日 2024-02-23 07:54:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク