The Role of Background Information in Reducing Object Hallucination in Vision-Language Models: Insights from Cutoff API Prompting

要約

Vision-Language Models(VLMS)は、入力画像と矛盾する出力を生成することがあり、実際のアプリケーションでの信頼性を制約します。
視覚的なプロンプトは、画像内の関連領域を備えたプロンプトを増強することにより幻覚を抑制することが報告されていますが、領域の観点からの有効性は不確実なままです。
この研究は、オブジェクトの幻覚における注意駆動型の視覚的プロンプトの成功と失敗のケースを分析し、オブジェクトの幻覚を緩和するために背景のコンテキストを維持することが重要であることを明らかにします。

要約(オリジナル)

Vision-Language Models (VLMs) occasionally generate outputs that contradict input images, constraining their reliability in real-world applications. While visual prompting is reported to suppress hallucinations by augmenting prompts with relevant area inside an image, the effectiveness in terms of the area remains uncertain. This study analyzes success and failure cases of Attention-driven visual prompting in object hallucination, revealing that preserving background context is crucial for mitigating object hallucination.

arxiv情報

著者 Masayo Tomita,Katsuhiko Hayashi,Tomoyuki Kaneko
発行日 2025-02-21 11:26:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク