IBD: Alleviating Hallucinations in Large Vision-Language Models via Image-Biased Decoding

要約

大規模視覚言語モデル (LVLM) は急速な開発を達成し、広く応用されているにもかかわらず、幻覚を起こしやすいという深刻な課題に直面しています。
言語的事前知識への過度の依存が、これらの幻覚を引き起こす主な要因として特定されています。
この論文では、新しい画像バイアス復号化 (IBD) 技術を導入することで、この問題を軽減することを提案します。
私たちの手法は、従来の LVLM の予測と画像に偏った LVLM の予測を対比することによって次のトークンの確率分布を導き出し、それにより、テキストへの過度の依存によって引き起こされる幻覚エラーを軽減しながら、画像コンテンツと高度に相関する正しい情報を増幅します。
さらに、包括的な統計分析を実行して手法の信頼性を検証し、さまざまな条件下で堅牢かつ柔軟な処理を実現するための適応調整戦略を設計します。
複数の評価指標にわたる実験結果は、追加のトレーニング データを必要とせず、モデル パラメーターの最小限の増加のみにもかかわらず、私たちの方法が LVLM の幻覚を大幅に軽減し、生成された応答の真実性を高めることができることを検証しています。

要約(オリジナル)

Despite achieving rapid developments and with widespread applications, Large Vision-Language Models (LVLMs) confront a serious challenge of being prone to generating hallucinations. An over-reliance on linguistic priors has been identified as a key factor leading to these hallucinations. In this paper, we propose to alleviate this problem by introducing a novel image-biased decoding (IBD) technique. Our method derives the next-token probability distribution by contrasting predictions from a conventional LVLM with those of an image-biased LVLM, thereby amplifying the correct information highly correlated with image content while mitigating the hallucinatory errors caused by excessive dependence on text. We further conduct a comprehensive statistical analysis to validate the reliability of our method, and design an adaptive adjustment strategy to achieve robust and flexible handling under varying conditions. Experimental results across multiple evaluation metrics verify that our method, despite not requiring additional training data and only with a minimal increase in model parameters, can significantly reduce hallucinations in LVLMs and enhance the truthfulness of the generated response.

arxiv情報

著者 Lanyun Zhu,Deyi Ji,Tianrun Chen,Peng Xu,Jieping Ye,Jun Liu
発行日 2024-02-28 16:57:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク