Mitigating Hallucinations in Large Vision-Language Models with Instruction Contrastive Decoding

要約

大規模視覚言語モデル (LVLM) は、視覚入力から状況に応じて詳細で一貫した応答を生成することにますます熟練しています。
しかし、マルチモーダルな意思決定やオープンエンドの生成におけるそれらの適用は、生成されたテキストが視覚的な内容を不正確に表現する、顕著な割合の幻覚によって妨げられています。
この問題に対処するために、この文書では、LVLM 推論中の幻覚を軽減するように設計された新しいアプローチである命令対照デコーディング (ICD) 手法を紹介します。
私たちの方法は、いわゆる妨害命令がマルチモーダル融合モジュールの幻覚を著しく悪化させるという観察に基づいています。
ICD は、標準および指示外乱からの分布を対比することで、位置合わせの不確実性を高め、元の分布から幻覚概念を効果的に差し引きます。
弁別ベンチマーク (POPE および MME) と生成ベンチマーク (LLaVa-Bench) に関する包括的な実験を通じて、ICD が物体レベルと属性レベルの両方の幻覚を大幅に軽減することを実証しました。
さらに、私たちの方法は幻覚に対処するだけでなく、LVLM の一般的な知覚および認識能力も大幅に強化します。

要約(オリジナル)

Large Vision-Language Models (LVLMs) are increasingly adept at generating contextually detailed and coherent responses from visual inputs. However, their application in multimodal decision-making and open-ended generation is hindered by a notable rate of hallucinations, where generated text inaccurately represents the visual contents. To address this issue, this paper introduces the Instruction Contrastive Decoding (ICD) method, a novel approach designed to reduce hallucinations during LVLM inference. Our method is inspired by our observation that what we call disturbance instructions significantly exacerbate hallucinations in multimodal fusion modules. ICD contrasts distributions from standard and instruction disturbance, thereby increasing alignment uncertainty and effectively subtracting hallucinated concepts from the original distribution. Through comprehensive experiments on discriminative benchmarks (POPE and MME) and a generative benchmark (LLaVa-Bench), we demonstrate that ICD significantly mitigates both object-level and attribute-level hallucinations. Moreover, our method not only addresses hallucinations but also significantly enhances the general perception and recognition capabilities of LVLMs.

arxiv情報

著者 Xintong Wang,Jingheng Pan,Liang Ding,Chris Biemann
発行日 2024-03-27 16:04:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM パーマリンク