Look, Compare, Decide: Alleviating Hallucination in Large Vision-Language Models via Multi-View Multi-Path Reasoning

要約

最近、Large Vision-Language Model (LVLM) は、マルチモーダルなコンテキストの理解において優れた機能を実証しました。
しかし、彼らは依然として、画像コンテンツと一致しない出力を生成するという幻覚の問題に悩まされています。
幻覚を軽減するために、これまでの研究は主にカスタム データセットを使用した LVLM の再トレーニングに焦点を当てていました。
効果的ではありますが、本質的に追加の計算コストがかかります。
この論文では、トレーニング不要のフレームワーク \textbf{MVP} を提案します。これは、\textbf{M}ulti-\textbf{V}iew Multi-
\textbf{P} の推論。
具体的には、まず、画像内の包括的な情報を徹底的に認識するためのマルチビュー情報探索戦略を考案します。これにより、LVLM のオリジナルのビジョン エンコーダによってキャプチャされた一般的なグローバル情報が強化されます。
さらに、回答の解読中に、幻覚の発生が回答トークンの確実性と強い相関関係があることが観察されました。
そこで、我々は、複数の復号パス間で考えられるそれぞれの答えに対する確実性スコアを定量化して集計し、最終的に出力される答えを決定するために、各情報ビューに対してマルチパス推論を提案します。
画像内の情報を完全に把握し、デコード時に潜在的な答えの確実性を慎重に考慮することにより、当社の MVP は LVLM の幻覚を効果的に軽減できます。広範な実験により、当社が提案した MVP が 4 つのよく知られた LVLM にわたる幻覚問題を大幅に軽減することが確認されました。
ソース コードは \url{https://github.com/GasolSun36/MVP} から入手できます。

要約(オリジナル)

Recently, Large Vision-Language Models (LVLMs) have demonstrated impressive capabilities in multi-modal context comprehension. However, they still suffer from hallucination problems referring to generating inconsistent outputs with the image content. To mitigate hallucinations, previous studies mainly focus on retraining LVLMs with custom datasets. Although effective, they inherently come with additional computational costs. In this paper, we propose a training-free framework, \textbf{MVP}, that aims to reduce hallucinations by making the most of the innate capabilities of the LVLMs via \textbf{M}ulti-\textbf{V}iew Multi-\textbf{P}ath Reasoning. Specifically, we first devise a multi-view information-seeking strategy to thoroughly perceive the comprehensive information in the image, which enriches the general global information captured by the original vision encoder in LVLMs. Furthermore, during the answer decoding, we observe that the occurrence of hallucinations has a strong correlation with the certainty of the answer tokens. Thus, we propose multi-path reasoning for each information view to quantify and aggregate the certainty scores for each potential answer among multiple decoding paths and finally decide the output answer. By fully grasping the information in the image and carefully considering the certainty of the potential answers when decoding, our MVP can effectively reduce hallucinations in LVLMs.The extensive experiments verify that our proposed MVP significantly mitigates the hallucination problem across four well-known LVLMs. The source code is available at: \url{https://github.com/GasolSun36/MVP}.

arxiv情報

著者 Xiaoye Qu,Jiashuo Sun,Wei Wei,Yu Cheng
発行日 2024-08-30 09:40:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク