Evaluating Object Hallucination in Large Vision-Language Models

要約

大規模言語モデル (LLM) の優れた言語能力に触発され、複雑なマルチモーダル タスクのパフォーマンスを向上させるために、強力な LLM を統合することにより、大規模ビジョン言語モデル (LVLM) が最近研究されています。
LVLM に関する有望な進歩にもかかわらず、LVLM は幻覚の問題を抱えていることがわかりました。つまり、LVLM は記述内のターゲット画像と矛盾するオブジェクトを生成する傾向があります。
それを調査するために、この研究はLVLMの物体幻覚に関する最初の体系的な研究を提示します。
いくつかの代表的な LVLM に対して評価実験を行ったところ、それらのほとんどが重度の物体幻覚の問題を抱えていることがわかりました。
さらに、視覚的指示が幻覚に影響を与える可能性があることについて議論し、視覚的指示内で頻繁に出現するオブジェクト、または画像オブジェクトと同時発生するオブジェクトは、明らかに LVLM によって幻覚を受けやすいことが分かりました。
さらに、既存の評価方法が LVLM の入力命令と生成スタイルの影響を受ける可能性があることがわかりました。
したがって、\emph{POPE} と呼ばれるポーリングベースのクエリ方法を提案することにより、物体幻覚の改善された評価方法をさらに設計します。
実験結果は、POPE がより安定して柔軟な方法で物体の幻覚を評価できることを示しています。
私たちのコードとデータは https://github.com/RUCAIBox/POPE で公開されています。

要約(オリジナル)

Inspired by the superior language abilities of large language models (LLM), large vision-language models (LVLM) have been recently explored by integrating powerful LLMs for improving the performance on complex multimodal tasks. Despite the promising progress on LVLMs, we find that LVLMs suffer from the hallucination problem, i.e. they tend to generate objects that are inconsistent with the target images in the descriptions. To investigate it, this work presents the first systematic study on object hallucination of LVLMs. We conduct the evaluation experiments on several representative LVLMs, and show that they mostly suffer from severe object hallucination issue. We further discuss that the visual instructions may influence the hallucination, and find that: objects that frequently occur in the visual instructions or co-occur with the image objects, are obviously prone to be hallucinated by LVLMs. Besides, we find that existing evaluation methods might be affected by the input instructions and generation styles of LVLMs. Thus, we further design an improved evaluation method for object hallucination by proposing a polling-based query method called \emph{POPE}. Experiment results demonstrate that our POPE can evaluate the object hallucination in a more stable and flexible way. Our codes and data are publicly available at https://github.com/RUCAIBox/POPE.

arxiv情報

著者 Yifan Li,Yifan Du,Kun Zhou,Jinpeng Wang,Wayne Xin Zhao,Ji-Rong Wen
発行日 2023-05-17 16:34:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.MM パーマリンク