Multi-Object Hallucination in Vision-Language Models

要約

Large Vision Language Model (LVLM) は、物体幻覚に悩まされることが多く、指定された画像に存在しない物体が生成されます。
現在の物体幻覚のベンチマークは、主に個々のエンティティではなく単一の物体クラスの存在に焦点を当てていますが、この研究では複数の物体の幻覚を体系的に調査し、複数の物体に焦点を当てるタスクを課されたときにモデルがどのように誤認識するか(存在しない物体を発明したり、気が散ったりするなど)を調べます。
オブジェクトを同時に実行します。
テスト中に単一画像内のオブジェクト クラスの分布を考慮し、視覚的な参照プロンプトを使用して曖昧さを排除する自動評価プロトコルである、認識ベースのオブジェクト プロービング評価 (ROPE) を導入します。
包括的な実証研究と、複数の物体による幻覚を引き起こす潜在的な要因の分析により、(1) LVLM は、単一の物体に比べて複数の物体に焦点を合わせたときに、より多くの幻覚に悩まされることがわかりました。
(2) テストされたオブジェクト クラスの分布は幻覚動作に影響を及ぼし、LVLM がショートカットや偽の相関に従う可能性があることを示しています。(3) 幻覚動作は、データ固有の要因、顕著性と頻度、およびモデル固有の動作によって影響されます。
私たちは、LVLM が現実的な視覚シーンで頻繁に発生する複数のオブジェクトを認識して推論できるようにし、洞察を提供し、問題の軽減に向けた進捗状況を定量化できるようにしたいと考えています。

要約(オリジナル)

Large vision language models (LVLMs) often suffer from object hallucination, producing objects not present in the given images. While current benchmarks for object hallucination primarily concentrate on the presence of a single object class rather than individual entities, this work systematically investigates multi-object hallucination, examining how models misperceive (e.g., invent nonexistent objects or become distracted) when tasked with focusing on multiple objects simultaneously. We introduce Recognition-based Object Probing Evaluation (ROPE), an automated evaluation protocol that considers the distribution of object classes within a single image during testing and uses visual referring prompts to eliminate ambiguity. With comprehensive empirical studies and analysis of potential factors leading to multi-object hallucination, we found that (1) LVLMs suffer more hallucinations when focusing on multiple objects compared to a single object. (2) The tested object class distribution affects hallucination behaviors, indicating that LVLMs may follow shortcuts and spurious correlations.(3) Hallucinatory behaviors are influenced by data-specific factors, salience and frequency, and model intrinsic behaviors. We hope to enable LVLMs to recognize and reason about multiple objects that often occur in realistic visual scenes, provide insights, and quantify our progress towards mitigating the issues.

arxiv情報

著者 Xuweiyi Chen,Ziqiao Ma,Xuejun Zhang,Sihan Xu,Shengyi Qian,Jianing Yang,David F. Fouhey,Joyce Chai
発行日 2024-07-08 17:59:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク