要約
大規模ビジョン言語モデル (LVLM) は、大規模言語モデル (LLM) と視覚入力の統合において大幅な進歩を遂げ、高度なマルチモーダル推論を可能にしました。
彼らの成功にもかかわらず、永続的な課題は幻覚であり、生成されたテキストが視覚的なコンテンツを正確に反映できず、精度と信頼性の両方が損なわれます。
既存の方法は、アライメントのトレーニングやデコードの改良に焦点を当てていますが、根本的な原因を調査することなく、生成段階での症状に主に対処します。
この研究では、多頭注意モジュールに重点を置き、LVLM の幻覚を引き起こす内部メカニズムを調査します。
具体的には、視覚的コンテキストに対する注意頭出力の感度を定量化する指標である、Vision-aware Head Divergence (VHD) を導入します。
これに基づいて、私たちの調査結果は、視覚情報により同調している視覚を認識する注意頭の存在を明らかにしています。
ただし、モデルが以前の言語パターンに過度に依存していることは、幻覚と密接に関連しています。
これらの洞察に基づいて、私たちは、視覚を認識するアテンションヘッドの役割を強化することで幻覚を軽減するためのトレーニング不要のアプローチである視覚認識頭部強化(VHR)を提案します。
広範な実験により、私たちの方法は、無視できる追加の時間オーバーヘッドで高効率を維持しながら、幻覚の軽減において最先端のアプローチと比較して優れたパフォーマンスを達成することが実証されています。
要約(オリジナル)
Large vision-language models (LVLMs) have made substantial progress in integrating large language models (LLMs) with visual inputs, enabling advanced multimodal reasoning. Despite their success, a persistent challenge is hallucination-where generated text fails to accurately reflect visual content-undermining both accuracy and reliability. Existing methods focus on alignment training or decoding refinements but primarily address symptoms at the generation stage without probing the underlying causes. In this work, we investigate the internal mechanisms driving hallucination in LVLMs, with an emphasis on the multi-head attention module. Specifically, we introduce Vision-aware Head Divergence (VHD), a metric that quantifies the sensitivity of attention head outputs to visual context. Based on this, our findings reveal the presence of vision-aware attention heads that are more attuned to visual information; however, the model’s overreliance on its prior language patterns is closely related to hallucinations. Building on these insights, we propose Vision-aware Head Reinforcement (VHR), a training-free approach to mitigate hallucination by enhancing the role of vision-aware attention heads. Extensive experiments demonstrate that our method achieves superior performance compared to state-of-the-art approaches in mitigating hallucinations, while maintaining high efficiency with negligible additional time overhead.
arxiv情報
著者 | Jinghan He,Kuan Zhu,Haiyun Guo,Junfeng Fang,Zhenglin Hua,Yuheng Jia,Ming Tang,Tat-Seng Chua,Jinqiao Wang |
発行日 | 2024-12-18 15:29:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google