Quantity Matters: Towards Assessing and Mitigating Number Hallucination in Large Vision-Language Models

要約

大規模な視覚-言語モデルは、両領域を含むタスクを処理する上で素晴らしい能力を発揮している。しかしながら、これらのモデルはしばしば不正確な情報を生成するという重大な問題に遭遇する。本研究では、幻覚の特定のタイプである数幻覚に焦点を当てる。数幻覚とは、モデルが写真中の特定のオブジェクトの数を誤って識別することを指す。数字の幻覚に関する定量的評価を行い、主要なオープンソースの大規模視覚言語モデルにおいて、数字の幻覚が重要であることを示す。さらに、数幻覚の詳細な分析を行うために、関連する2つのタスクを利用し、全てのタスクの内部と外部の深刻な矛盾を明らかにする。この検証に基づき、我々は数の幻覚を減らすために一貫性を改善することを目的とした学習アプローチを考案し、これは直接的な微調整方法よりも8%の性能向上をもたらす。我々のコードとデータセットはコミュニティに公開される予定である。

要約(オリジナル)

Large-scale vision-language models have demonstrated impressive skill in handling tasks that involve both areas. Nevertheless, these models frequently experience significant issues with generating inaccurate information, which is hallucination. In this study, we concentrate on a specific type of hallucination-number hallucination, referring to models incorrectly identifying the number of certain objects in pictures. We perform quantitative evaluations regarding number hallucination, showing it to be critical in major open-source large vision-language models. Furthermore, we utilizes two related tasks to conduct an in-depth analysis of number hallucination, revealing the severe inner and outer inconsistency among all tasks. Based on this examination, we devise a training approach aimed at improving consistency to reduce number hallucinations, which leads to an 8% enhancement in performance over direct finetuning methods. Our code and dataset will be released to the community.

arxiv情報

著者 Huixuan Zhang,Junzhe Zhang,Xiaojun Wan
発行日 2024-05-06 13:39:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク