Look Twice Before You Answer: Memory-Space Visual Retracing for Hallucination Mitigation in Multimodal Large Language Models

要約

その素晴らしい能力にもかかわらず、マルチモーダル大規模言語モデル(MLLM)は幻覚の影響を受けやすく、特に視覚入力に存在しない内容を積極的に捏造する。前述した課題に対処するため、我々は一般的な認知プロセスに従い、重要な視覚的詳細の最初の記憶が薄れた場合、事実に基づいた正確な答えを求めるために、2度目を見ることが直感的である。そこで我々は、外部からの知識検索や追加的な微調整を必要としない、新しい幻覚軽減パラダイムである記憶空間視覚再トレース(MemVR)を導入する。特に、質問と関連する視覚的記憶についてモデルが不確かであったり、健忘であったりする場合に、視覚的プロンプトを補助的な証拠として扱い、フィードフォワードネットワーク(FFN)を介してMLLMにキーバリュー記憶として再投入する。包括的な実験評価により、MemVRは様々なMLLMにおいて幻覚の問題を大幅に軽減し、時間オーバーヘッドを追加することなく一般的なベンチマークにおいて優れていることが実証され、その結果、広く適用できる可能性が強調された。

要約(オリジナル)

Despite their impressive capabilities, Multimodal Large Language Models (MLLMs) are susceptible to hallucinations, especially assertively fabricating content not present in the visual inputs. To address the aforementioned challenge, we follow a common cognitive process – when one’s initial memory of critical on-sight details fades, it is intuitive to look at them a second time to seek a factual and accurate answer. Therefore, we introduce Memory-space Visual Retracing (MemVR), a novel hallucination mitigation paradigm that without the need for external knowledge retrieval or additional fine-tuning. In particular, we treat visual prompts as supplementary evidence to be reinjected into MLLMs via Feed Forward Network (FFN) as key-value memory, when the model is uncertain or even amnesic about question-relevant visual memories. Comprehensive experimental evaluations demonstrate that MemVR significantly mitigates hallucination issues across various MLLMs and excels in general benchmarks without incurring added time overhead, thus emphasizing its potential for widespread applicability.

arxiv情報

著者 Xin Zou,Yizhou Wang,Yibo Yan,Sirui Huang,Kening Zheng,Junkai Chen,Chang Tang,Xuming Hu
発行日 2024-10-04 16:30:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク