AGLA: Mitigating Object Hallucinations in Large Vision-Language Models with Assembly of Global and Local Attention

要約

大規模視覚言語モデル (LVLM) は、さまざまなマルチモーダル タスクで大きな成功を収めているにもかかわらず、生成されたテキスト応答が指定された画像内のグラウンド トゥルース オブジェクトと一致しないという、オブジェクトの幻覚に関する一般的な問題に直面しています。
この論文では、さまざまな LVLM を調査し、物体幻覚の根本原因の 1 つとして、弁別的な局所画像特徴に対する注意欠陥を特定します。
具体的には、LVLM は主にプロンプ​​トに依存しない全体的な画像特徴に注目しますが、プロンプトに関連する局所的な特徴を捕捉できず、その結果、LVLM の視覚的接地能力が損なわれ、幻覚が引き起こされます。
この目的を達成するために、我々は、応答生成のためのグローバルな特徴と視覚識別のためのローカルな特徴のアンサンブルを同時に探索することによって物体幻覚を軽減する、トレーニング不要のプラグアンドプレイアプローチであるグローバルおよびローカル注意のアセンブリ(AGLA)を提案します。
私たちのアプローチは、画像からプロンプトに関連する局所的な特徴をキャプチャする画像プロンプト マッチング スキームを示し、プロンプトに関連するコンテンツが確保され、無関係な気が散る要素がマスクされる入力画像の拡張ビューにつながります。
拡張ビューを使用すると、元の画像からの生成グローバル特徴と拡張画像からの識別局所特徴を統合することによって、校正された復号分布を導き出すことができます。
広範な実験により、AGLA は一貫して物体の幻覚を軽減し、さまざまな識別および生成ベンチマークにわたって LVLM の一般的な知覚能力を強化することが示されています。
私たちのコードは https://github.com/Lackel/AGLA でリリースされます。

要約(オリジナル)

Despite their great success across various multimodal tasks, Large Vision-Language Models (LVLMs) are facing a prevalent problem with object hallucinations, where the generated textual responses are inconsistent with ground-truth objects in the given image. This paper investigates various LVLMs and pinpoints attention deficiency toward discriminative local image features as one root cause of object hallucinations. Specifically, LVLMs predominantly attend to prompt-independent global image features, while failing to capture prompt-relevant local features, consequently undermining the visual grounding capacity of LVLMs and leading to hallucinations. To this end, we propose Assembly of Global and Local Attention (AGLA), a training-free and plug-and-play approach that mitigates object hallucinations by exploring an ensemble of global features for response generation and local features for visual discrimination simultaneously. Our approach exhibits an image-prompt matching scheme that captures prompt-relevant local features from images, leading to an augmented view of the input image where prompt-relevant content is reserved while irrelevant distractions are masked. With the augmented view, a calibrated decoding distribution can be derived by integrating generative global features from the original image and discriminative local features from the augmented image. Extensive experiments show that AGLA consistently mitigates object hallucinations and enhances general perception capability for LVLMs across various discriminative and generative benchmarks. Our code will be released at https://github.com/Lackel/AGLA.

arxiv情報

著者 Wenbin An,Feng Tian,Sicong Leng,Jiahao Nie,Haonan Lin,QianYing Wang,Guang Dai,Ping Chen,Shijian Lu
発行日 2024-06-21 17:33:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク