要約
大きなビジョン言語モデル(LVLMS)は、マルチモーダルタスクで印象的なパフォーマンスを実現しますが、多くの場合幻覚に悩まされ、画像に存在しないオブジェクトまたは属性を自信を持って説明します。
現在の推論時間介入は、トレーニングなしでは、オープンエンドおよび長期の生成シナリオの正確性を維持するのに苦労しています。
2つの重要なバイアスをターゲットにすることにより、この課題に対処するために、自信を得る注意キャリブレーション(CAAC)フレームワークを導入します。これは、画像トークン全体に注意を不均衡に分配する空間知覚バイアスと、視覚入力からテキスト入力に時間の経過とともにシフトするモダリティバイアスです。
CAACは2段階のアプローチを採用しています:視覚的なトークンのキャリブレーション(VTC)は、視覚トークン全体の注意のバランスを取り、適応的な注意再スケーリング(AAR)を使用して、モデルの信頼に基づいて視覚的な接地を強化します。
この信頼駆動型調整により、生成中の一貫した視覚的アライメントが保証されます。
椅子、アンバー、および教皇のベンチマークでの実験は、CAACが特に長期の世代でベースラインを上回り、幻覚を効果的に減らすことを示しています。
要約(オリジナル)
Large vision-language models (LVLMs) achieve impressive performance on multimodal tasks but often suffer from hallucination, and confidently describe objects or attributes not present in the image. Current inference-time interventions, while training-free, struggle to maintain accuracy in open-ended and long-form generation scenarios. We introduce the Confidence-Aware Attention Calibration (CAAC) framework to address this challenge by targeting two key biases: spatial perception bias, which distributes attention disproportionately across image tokens, and modality bias, which shifts focus from visual to textual inputs over time. CAAC employs a two-step approach: Visual-Token Calibration (VTC) to balance attention across visual tokens, and Adaptive Attention Re-Scaling (AAR) to reinforce visual grounding based on the model’s confidence. This confidence-driven adjustment ensures consistent visual alignment during generation. Experiments on CHAIR, AMBER, and POPE benchmarks demonstrate that CAAC outperforms baselines, particularly in long-form generations, effectively reducing hallucination.
arxiv情報
著者 | Mehrdad Fazli,Bowen Wei,Ziwei Zhu |
発行日 | 2025-05-27 17:45:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google