要約
大規模なビジョン言語モデル(LVM)は、視覚的な知覚機能を備えた大規模な言語モデル(LLM)を拡張し、視覚情報を処理および解釈できるようにします。
信頼性を損なう主な課題は、LVMがもっともらしいが事実上不正確な情報を生成する可能性があるというオブジェクトの幻覚です。
この幻覚の問題を軽減するための新しい視覚的敵対的摂動(VAP)方法を提案します。
VAPは、ベースモデルを変更せずに戦略的に最適化された視覚ノイズを適用することにより、LVM幻覚を緩和します。
私たちのアプローチは、幻覚抑制を最適化の問題として定式化し、敵対的な戦略を活用して、モデルの事実上の基礎を高め、パラメトリックな知識バイアスを削減する有益な視覚摂動を生成します。
広範な実験結果は、私たちの方法が8つの最先端のLVMでオブジェクトの幻覚を一貫して減らし、多様な評価全体でその有効性を検証することを示しています。
要約(オリジナル)
Large vision-language models (LVMs) extend large language models (LLMs) with visual perception capabilities, enabling them to process and interpret visual information. A major challenge compromising their reliability is object hallucination that LVMs may generate plausible but factually inaccurate information. We propose a novel visual adversarial perturbation (VAP) method to mitigate this hallucination issue. VAP alleviates LVM hallucination by applying strategically optimized visual noise without altering the base model. Our approach formulates hallucination suppression as an optimization problem, leveraging adversarial strategies to generate beneficial visual perturbations that enhance the model’s factual grounding and reduce parametric knowledge bias. Extensive experimental results demonstrate that our method consistently reduces object hallucinations across 8 state-of-the-art LVMs, validating its efficacy across diverse evaluations.
arxiv情報
著者 | Kejia Zhang,Keda Tao,Jiasheng Tang,Huan Wang |
発行日 | 2025-01-31 14:31:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google