要約
大規模視覚言語モデル(LVLM)は、下流のマルチモーダルタスクの視覚言語理解において顕著な能力を示している。その成功にもかかわらず、LVLMは複雑な生成タスクにおいて幻覚を発生させ、視覚入力と生成されたコンテンツの間に矛盾が生じるという問題を抱えている。この問題に対処するために、いくつかのアプローチでは、言語プリオールへの過度の依存を減らすために、対比的デコーディングや注意整流などの推論時間介入を導入している。しかし、これらのアプローチでは、偽のモダリティ間相関に起因する幻覚を見過ごしてしまう。本論文では、LVLMにおける幻覚を訓練不要で軽減するために、モダリティ間相関較正復号(IMCCD)法を提案する。本手法では、Cross-Modal Value-Enhanced Decoding(CMVED)モジュールを設計し、新しいコントラストデコーディングメカニズムにより幻覚を軽減する。歪んだ分布を推定する際、CMVEDはクロスモーダルな注意の重みに関連する値ベクトルをマスクし、単一モダリティへの過度の依存と誤解を招くモダリティ間相関の両方に対処する。さらに、Content-Driven Attention Refinement(CDAR)モジュールは、クロスモーダル注意の重みを精製し、LVLMが重要な視覚的内容に集中するように導く。様々な幻覚ベンチマークを用いた実験結果により、LVLMテキスト生成における幻覚の低減において、既存の最先端技術よりも本手法が優れていることが検証された。我々のコードはhttps://github.com/lijm48/IMCCD。
要約(オリジナル)
Large vision-language models (LVLMs) have shown remarkable capabilities in visual-language understanding for downstream multi-modal tasks. Despite their success, LVLMs still suffer from generating hallucinations in complex generation tasks, leading to inconsistencies between visual inputs and generated content. To address this issue, some approaches have introduced inference-time interventions, such as contrastive decoding and attention rectification, to reduce overreliance on language priors. However, these approaches overlook hallucinations stemming from spurious inter-modality correlations. In this paper, we propose an Inter-Modality Correlation Calibration Decoding (IMCCD) method to mitigate hallucinations in LVLMs in a training-free manner. In this method, we design a Cross-Modal Value-Enhanced Decoding(CMVED) module to alleviate hallucination by a novel contrastive decoding mechanism. During the estimation of distorted distribution, CMVED masks the value vectors associated with significant cross-modal attention weights, which address both uni-modality overreliance and misleading inter-modality correlations. Additionally, a Content-Driven Attention Refinement(CDAR) module refines cross-modal attention weights, guiding LVLMs to focus on important visual content. Experimental results on diverse hallucination benchmarks validate the superiority of our method over existing state-of-the-art techniques in reducing hallucinations in LVLM text generation. Our code will be available at https://github.com/lijm48/IMCCD.
arxiv情報
著者 | Jiaming Li,Jiacheng Zhang,Zequn Jie,Lin Ma,Guanbin Li |
発行日 | 2025-01-03 17:56:28+00:00 |
arxivサイト | arxiv_id(pdf) |