Hallucination of Multimodal Large Language Models: A Survey

要約

この調査は、マルチモーダルタスクにおける大幅な進歩と顕著な能力を実証した、ラージビジョン言語モデル(LVLM)としても知られるマルチモーダルラージ言語モデル(MLLM)における幻覚現象の包括的な分析を示しています。
これらの有望な開発にもかかわらず、MLLM は視覚コンテンツと一致しない出力を生成することが多く、これは幻覚として知られる課題であり、実際の展開に大きな障害をもたらし、現実世界のアプリケーションでの信頼性に関する懸念が生じます。
この問題はますます注目を集めており、そのような不正確さを検出して軽減する取り組みが促されています。
私たちは、これらの幻覚の特定、評価、軽減に関する最近の進歩をレビューし、根本的な原因、評価ベンチマーク、指標、およびこの問題に対処するために開発された戦略の詳細な概要を提供します。
さらに、現在の課題と限界を分析し、将来の研究への潜在的な道筋を描く未解決の質問を定式化します。
この調査は、幻覚の原因、評価ベンチマーク、および軽減方法の詳細な分類と状況を描くことにより、MLLM における幻覚についての理解を深め、この分野のさらなる進歩を促すことを目的としています。
徹底的かつ詳細なレビューを通じて、MLLM の堅牢性と信頼性の向上に関する継続的な対話に貢献し、研究者と実務者の両方に貴重な洞察とリソースを提供します。
リソースは https://github.com/showlab/Awesome-MLLM-Hallucination から入手できます。

要約(オリジナル)

This survey presents a comprehensive analysis of the phenomenon of hallucination in multimodal large language models (MLLMs), also known as Large Vision-Language Models (LVLMs), which have demonstrated significant advancements and remarkable abilities in multimodal tasks. Despite these promising developments, MLLMs often generate outputs that are inconsistent with the visual content, a challenge known as hallucination, which poses substantial obstacles to their practical deployment and raises concerns regarding their reliability in real-world applications. This problem has attracted increasing attention, prompting efforts to detect and mitigate such inaccuracies. We review recent advances in identifying, evaluating, and mitigating these hallucinations, offering a detailed overview of the underlying causes, evaluation benchmarks, metrics, and strategies developed to address this issue. Additionally, we analyze the current challenges and limitations, formulating open questions that delineate potential pathways for future research. By drawing the granular classification and landscapes of hallucination causes, evaluation benchmarks, and mitigation methods, this survey aims to deepen the understanding of hallucinations in MLLMs and inspire further advancements in the field. Through our thorough and in-depth review, we contribute to the ongoing dialogue on enhancing the robustness and reliability of MLLMs, providing valuable insights and resources for researchers and practitioners alike. Resources are available at: https://github.com/showlab/Awesome-MLLM-Hallucination.

arxiv情報

著者 Zechen Bai,Pichao Wang,Tianjun Xiao,Tong He,Zongbo Han,Zheng Zhang,Mike Zheng Shou
発行日 2024-04-29 17:59:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク