Skip $\textbackslash n$: A simple method to reduce hallucination in Large Vision-Language Models

要約

近年の大規模視覚言語モデル(LVLM)の進歩により、人間の言語による視覚情報理解において素晴らしい能力が実証されている。このような進歩にもかかわらず、LVLMは、視覚情報には存在しない物体のテキスト説明を生成するなど、マルチモーダル幻覚の課題に依然として直面している。しかし、マルチモーダル幻覚の根本的な理由はまだ十分に解明されていない。本論文では、LVLMに内在するバイアスが幻覚の重要な要因である可能性を示唆し、新たな視点を提案する。具体的には、段落区切り(’$textbackslash ntextbackslash n$’)に関連する意味シフトバイアスを系統的に識別し、学習データ中の’$textbackslash ntextbackslash n$’前後の内容が頻繁に大きな意味変化を示す。このパターンから、「$textbackslash ntextbackslash n$」に続く内容は、明らかに先行する内容と異なり、幻覚的な記述が少ないはずであり、それにより「$textbackslash ntextbackslash n$」に続く幻覚的な記述の確率が高くなるとモデルは推論する。この仮説を複数の公開LVLMで検証した。また、生成された記述に意図的に’$textbackslash ntextbackslash n$’を挿入することで、より多くの幻覚を誘発することがわかった。textbackslash n’の出力をスキップすることで、LVLMの幻覚を効果的に緩和する簡単な方法を提案する。

要約(オリジナル)

Recent advancements in large vision-language models (LVLMs) have demonstrated impressive capability in visual information understanding with human language. Despite these advances, LVLMs still face challenges with multimodal hallucination, such as generating text descriptions of objects that are not present in the visual information. However, the underlying fundamental reasons of multimodal hallucinations remain poorly explored. In this paper, we propose a new perspective, suggesting that the inherent biases in LVLMs might be a key factor in hallucinations. Specifically, we systematically identify a semantic shift bias related to paragraph breaks (‘$\textbackslash n\textbackslash n$’), where the content before and after ‘$\textbackslash n\textbackslash n$’ in the training data frequently exhibit significant semantic changes. This pattern leads the model to infer that the contents following ‘$\textbackslash n\textbackslash n$’ should be obviously different from the preceding contents with less hallucinatory descriptions, thereby increasing the probability of hallucinatory descriptions subsequent to the ‘$\textbackslash n\textbackslash n$’. We have validated this hypothesis on multiple publicly available LVLMs. Besides, we find that deliberately inserting ‘$\textbackslash n\textbackslash n$’ at the generated description can induce more hallucinations. A simple method is proposed to effectively mitigate the hallucination of LVLMs by skipping the output of `\textbackslash n’.

arxiv情報

著者 Zongbo Han,Zechen Bai,Haiyang Mei,Qianli Xu,Changqing Zhang,Mike Zheng Shou
発行日 2024-02-02 12:02:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG パーマリンク