Alleviating Hallucination in Large Vision-Language Models with Active Retrieval Augmentation

要約

近年、大規模言語モデル(LLM)において、外部の知識資源から情報を検索することによりLLMを拡張することが、幻覚を軽減する有望な解決策として証明されている。しかし、LVLMにおける検索拡張は、LVLMの普及に大きく遅れをとっている。さらに、LVLMの拡張に移行すると、モデルの幻覚度が悪化することさえある。研究ギャップと直感に反する現象に動機づけられ、我々は、以下の3つの重要な次元を組み込むことにより、幻覚に対処するために特別に設計された新しいフレームワーク、能動的検索拡張大型視覚言語モデル(ARA)を導入する。(ii) 最も効果的な検索方法を特定し、信頼できる検索結果をフィルタリングする。(iii)確実性の低いエピソードと一致するように検索処理をタイミングよく行う一方、確実性の高い時間帯には不要な検索を回避する。幻覚を減らすための我々の提案するARAモデルの能力を評価するために、4つのベンチマークにおいて、広く使われている3つのLVLMモデル(LLaVA-1.5、Qwen-VL、mPLUG-Owl2)を採用した。我々の実証的な観察から、適切な検索メカニズムを利用し、検索のタイミングを適切にすることで、幻覚問題を効果的に軽減できることが示唆された。本研究が、より効果的な検索と最小限の検索発生で幻覚を低減するために、LVLMに検索補強を適応する方法についてより深い洞察を提供できることを期待する。

要約(オリジナル)

Despite the remarkable ability of large vision-language models (LVLMs) in image comprehension, these models frequently generate plausible yet factually incorrect responses, a phenomenon known as hallucination.Recently, in large language models (LLMs), augmenting LLMs by retrieving information from external knowledge resources has been proven as a promising solution to mitigate hallucinations.However, the retrieval augmentation in LVLM significantly lags behind the widespread applications of LVLM. Moreover, when transferred to augmenting LVLMs, sometimes the hallucination degree of the model is even exacerbated.Motivated by the research gap and counter-intuitive phenomenon, we introduce a novel framework, the Active Retrieval-Augmented large vision-language model (ARA), specifically designed to address hallucinations by incorporating three critical dimensions: (i) dissecting the retrieval targets based on the inherent hierarchical structures of images. (ii) pinpointing the most effective retrieval methods and filtering out the reliable retrieval results. (iii) timing the retrieval process to coincide with episodes of low certainty, while circumventing unnecessary retrieval during periods of high certainty. To assess the capability of our proposed ARA model in reducing hallucination, we employ three widely used LVLM models (LLaVA-1.5, Qwen-VL, and mPLUG-Owl2) across four benchmarks. Our empirical observations suggest that by utilizing fitting retrieval mechanisms and timing the retrieval judiciously, we can effectively mitigate the hallucination problem. We hope that this study can provide deeper insights into how to adapt the retrieval augmentation to LVLMs for reducing hallucinations with more effective retrieval and minimal retrieval occurrences.

arxiv情報

著者 Xiaoye Qu,Qiyuan Chen,Wei Wei,Jishuo Sun,Jianfeng Dong
発行日 2024-08-01 13:38:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク