Paying More Attention to Image: A Training-Free Method for Alleviating Hallucination in LVLMs

要約

既存の大規模ビジョン言語モデル (LVLM) は、主にビジョン エンコーダの画像特徴を大規模言語モデル (LLM) と調整して、その優れたテキスト生成機能を活用します。
ただし、ビジョン エンコーダと言語モデルの間のスケールの違いにより、LLM がマルチモーダルな理解において主要な役割を担うことになる可能性があります。
LVLM のこの不均衡は、幻覚症状を引き起こす可能性があります。
具体的には、LVLM は視覚入力の有無にかかわらず一貫した説明を生成し、特定の出力がコンテキスト テキストのみによって影響されることを示します。
この現象を「テキストの慣性」と呼びます。
この問題に対処するために、画像理解と言語推論の間の平衡点を見つけるトレーニング不要のアルゴリズムを導入します。
具体的には、画像トークンに割り当てられた注意の重みを適応的に調整および増幅することで、視覚要素をより目立つようにします。
一方、純粋なテキスト入力のロジットからマルチモーダル入力のロジットを減算することで、LVLM が LLM に偏らないようにすることができます。
画像トークンを強化し、LLM の頑固な出力を減らすことで、テキストの慣性を軽減し、LVLM の幻覚を軽減するために、LVLM に画像により多くの注意を向けさせることができます。
私たちの広範な実験により、この方法により、さまざまな指標の観点から、さまざまな LVLM における幻覚出力の頻度が大幅に減少することがわかりました。
プロジェクトページは https://lalbj.github.io/projects/PAI/ から入手できます。

要約(オリジナル)

Existing Large Vision-Language Models (LVLMs) primarily align image features of vision encoder with Large Language Models (LLMs) to leverage their superior text generation capabilities. However, the scale disparity between vision encoder and language model may led to LLMs assuming a predominant role in multi-modal comprehension. This imbalance in LVLMs may result in the instances of hallucinatory. Concretely, LVLMs may generate consistent descriptions with or without visual input, indicating that certain outputs are influenced solely by context text. We refer to this phenomenon as ‘text inertia.’ To counteract this issue, we introduce a training-free algorithm to find an equilibrium point between image comprehension and language inference. Specifically, we adaptively involve adjusting and amplifying the attention weights assigned to image tokens, thereby granting greater prominence to visual elements. Meanwhile, we subtract the logits of multi-modal inputs from ones of pure text input, which can help LVLMs be not biased towards LLMs. By enhancing images tokens and reducing the stubborn output of LLM, we can let LVLM pay more attention to images, towards alleviating text inertia and reducing the hallucination in LVLMs. Our extensive experiments shows that this method substantially reduces the frequency of hallucinatory outputs in various LVLMs in terms of different metrics. Project page is available at https://lalbj.github.io/projects/PAI/.

arxiv情報

著者 Shi Liu,Kecheng Zheng,Wei Chen
発行日 2024-07-31 17:46:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク