要約
Large Vision Language Model (LVLM) は、視覚コンテンツの理解と記述において優れた能力を実証し、さまざまな視覚言語タスクにわたって最先端のパフォーマンスを実現します。
ただし、これらのモデルは、入力画像に存在しないオブジェクトや詳細を含む記述を生成する幻覚動作を頻繁に示します。
私たちの研究では、変圧器の層と頭部にわたる注意パターンを分析することによってこの現象を調査し、幻覚がより深い層での視覚接地の進行性の低下に起因することが多いことを明らかにしました。
私たちは、生成プロセス全体を通じて視覚的な根拠を維持するために、選択的なトークンの強調と頭部固有の変調を組み合わせた、新しい注意修正アプローチを提案します。
私たちの方法では、2 つの重要なコンポーネントが導入されています。(1) 局所的に有益な視覚トークンと空間的に重要な視覚トークンの両方を識別して優先順位を付けるデュアルストリーム トークン選択メカニズム、(2) 測定されたデータに基づいて視覚情報処理を差動的に増幅するアテンションヘッド固有の変調戦略
個々の注意頭の視覚感度。
MSCOCO データセットに対する広範な実験を通じて、私たちのアプローチは、同等のタスクのパフォーマンスを維持しながら、ベースライン モデルと比較して幻覚率を最大 62.3% 削減することを実証しました。
私たちの分析により、さまざまなレベルの視覚感度を持つアテンションヘッド全体でトークンを選択的に調整することで、モデルの再トレーニングを必要とせずに視覚的なグラウンディングを大幅に改善できることが明らかになりました。
要約(オリジナル)
Large Vision Language Models (LVLMs) have demonstrated remarkable capabilities in understanding and describing visual content, achieving state-of-the-art performance across various vision-language tasks. However, these models frequently exhibit hallucination behavior, where they generate descriptions containing objects or details absent in the input image. Our work investigates this phenomenon by analyzing attention patterns across transformer layers and heads, revealing that hallucinations often stem from progressive degradation of visual grounding in deeper layers. We propose a novel attention modification approach that combines selective token emphasis and head-specific modulation to maintain visual grounding throughout the generation process. Our method introduces two key components: (1) a dual-stream token selection mechanism that identifies and prioritizes both locally informative and spatially significant visual tokens, and (2) an attention head-specific modulation strategy that differentially amplifies visual information processing based on measured visual sensitivity of individual attention heads. Through extensive experimentation on the MSCOCO dataset, we demonstrate that our approach reduces hallucination rates by up to 62.3\% compared to baseline models while maintaining comparable task performance. Our analysis reveals that selectively modulating tokens across attention heads with varying levels of visual sensitivity can significantly improve visual grounding without requiring model retraining.
arxiv情報
著者 | Kazi Hasan Ibn Arif,Sajib Acharjee Dip,Khizar Hussain,Lang Zhang,Chris Thomas |
発行日 | 2025-01-21 15:22:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google