要約
実用的なアプリケーションとしての大規模視覚言語モデル (LVLM) への最近の関心は、幻覚や事実情報と生成されたテキスト間の不一致という重大な課題によって緩和されています。
この論文では、まず幻覚の詳細な分析を実行し、LVLM がいつどのように幻覚を起こすかについていくつかの新しい洞察を発見します。
私たちの分析から、我々は次のことを示しています: (1) コミュニティの取り組みは主に視覚認識 (VR) プロンプト (例えば、画像の説明のみを必要とするプロンプト) に関連する幻覚を減らすことを目的としており、それによって認知プロンプト (例えば、
画像の内容についての推論など、追加のスキルが必要なプロンプトなど)。
(2) LVLM には視覚認識がありません。つまり、LVLM は入力画像を見ることはできますが、必ずしも理解または認識できるわけではありません。
私たちは、認知的プロンプトに対する反応を分析し、LVLM が知覚のギャップによって幻覚を起こすことを示します。LVLM は入力画像内の視覚要素を正確に認識し、十分な認知スキルを備えていますが、正確に反応して幻覚を起こすのに苦労しています。
この欠点を克服するために、我々は、幻覚を軽減するためのシンプルで堅牢かつトレーニング不要の方法である Visual description Ground Decoding (VDGD) を提案します。
具体的には、まず画像を記述し、それを命令の接頭語として追加します。
次に、自己回帰デコード中に、説明に対する KL ダイバージェンス (KLD) に従って、もっともらしい候補からサンプリングします。KLD が低いほど優先度が高くなります。
いくつかのベンチマークと LVLM の実験結果は、VDGD が幻覚の軽減において他のベースラインよりも大幅に改善することを示しています。
また、LVLM の認知能力を総合的に評価するためのベンチマークである VaLLu も提案します。
要約(オリジナル)
Recent interest in Large Vision-Language Models (LVLMs) for practical applications is moderated by the significant challenge of hallucination or the inconsistency between the factual information and the generated text. In this paper, we first perform an in-depth analysis of hallucinations and discover several novel insights about how and when LVLMs hallucinate. From our analysis, we show that: (1) The community’s efforts have been primarily targeted towards reducing hallucinations related to visual recognition (VR) prompts (e.g., prompts that only require describing the image), thereby ignoring hallucinations for cognitive prompts (e.g., prompts that require additional skills like reasoning on contents of the image). (2) LVLMs lack visual perception, i.e., they can see but not necessarily understand or perceive the input image. We analyze responses to cognitive prompts and show that LVLMs hallucinate due to a perception gap: although LVLMs accurately recognize visual elements in the input image and possess sufficient cognitive skills, they struggle to respond accurately and hallucinate. To overcome this shortcoming, we propose Visual Description Grounded Decoding (VDGD), a simple, robust, and training-free method for alleviating hallucinations. Specifically, we first describe the image and add it as a prefix to the instruction. Next, during auto-regressive decoding, we sample from the plausible candidates according to their KL-Divergence (KLD) to the description, where lower KLD is given higher preference. Experimental results on several benchmarks and LVLMs show that VDGD improves significantly over other baselines in reducing hallucinations. We also propose VaLLu, a benchmark for the comprehensive evaluation of the cognitive capabilities of LVLMs.
arxiv情報
著者 | Sreyan Ghosh,Chandra Kiran Reddy Evuru,Sonal Kumar,Utkarsh Tyagi,Oriol Nieto,Zeyu Jin,Dinesh Manocha |
発行日 | 2024-05-24 16:21:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google