要約
大規模なビジョン言語モデル(LVLMS)の大幅な成功にもかかわらず、これらのモデルは画像を説明するときに幻覚を受け、存在しないオブジェクトを含む答えを生成します。
これらのモデルは、質問に答えるための重要な情報を含まない特定の無関係な画像トークンに過度に焦点を当てる傾向があると報告されています。
これに対処するために、2つの異なる命令の下で注意力の変化を比較することにより、無関係なトークンを識別する命令に合った視覚的注意(IAVA)アプローチを提案します。
対照的なデコードを適用することにより、元の画像トークンと無関係な画像トークンから生成されたロジットを動的に調整し、モデルの無関係な情報を減らします。
実験結果は、IAVAが、オブジェクトの幻覚を緩和する際に、MME、Pope、TextVQAなどのベンチマーク上の既存のデコード技術を一貫して上回ることを示しています。
私たちのIAVAアプローチは、https://github.com/lee-lab558/iavaでオンラインで入手できます。
要約(オリジナル)
Despite the significant success of Large Vision-Language models(LVLMs), these models still suffer hallucinations when describing images, generating answers that include non-existent objects. It is reported that these models tend to over-focus on certain irrelevant image tokens that do not contain critical information for answering the question and distort the output. To address this, we propose an Instruction-Aligned Visual Attention(IAVA) approach, which identifies irrelevant tokens by comparing changes in attention weights under two different instructions. By applying contrastive decoding, we dynamically adjust the logits generated from original image tokens and irrelevant image tokens, reducing the model’s over-attention to irrelevant information. The experimental results demonstrate that IAVA consistently outperforms existing decoding techniques on benchmarks such as MME, POPE, and TextVQA in mitigating object hallucinations. Our IAVA approach is available online at https://github.com/Lee-lab558/IAVA.
arxiv情報
著者 | Bin Li,Dehong Gao,Yeyuan Wang,Linbo Jin,Shanqing Yu,Xiaoyan Cai,Libin Yang |
発行日 | 2025-03-24 11:09:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google