要約
マルチモーダル大規模言語モデル (MLLM) は頻繁に幻覚現象を示しますが、根本的な理由はまだよくわかっていません。
この論文では、MLLM が最終出力でオブジェクトを誤って生成しても、実際には前の層の視覚オブジェクトを認識できることを実証分析により示します。
これは、言語モデルの強力な事前知識が視覚情報を抑制し、幻覚を引き起こすためであると推測しています。
これを動機として、我々は、適切な先行層を適応的に選択し、出力ロジットを調整するために知識を最終層に比例的に統合する、MLLM (DeCo) のための新しい動的補正復号法を提案します。
DeCo はモデルに依存せず、さまざまな古典的なデコード戦略にシームレスに組み込んで、さまざまな MLLM に適用できることに注意してください。
私たちは広く使用されているベンチマークで DeCo を評価し、ベースラインと比較して幻覚率を大幅に低下させることができることを実証し、幻覚を軽減する可能性を強調しています。
コードは https://github.com/zjunlp/DeCo で入手できます。
要約(オリジナル)
Multimodal Large Language Models (MLLMs) frequently exhibit hallucination phenomena, but the underlying reasons remain poorly understood. In this paper, we present an empirical analysis and find that, although MLLMs incorrectly generate the objects in the final output, they are actually able to recognize visual objects in the preceding layers. We speculate that this may be due to the strong knowledge priors of the language model suppressing the visual information, leading to hallucinations. Motivated by this, we propose a novel dynamic correction decoding method for MLLMs (DeCo), which adaptively selects the appropriate preceding layers and proportionally integrates knowledge into the final layer to adjust the output logits. Note that DeCo is model agnostic and can be seamlessly incorporated with various classic decoding strategies and applied to different MLLMs. We evaluate DeCo on widely-used benchmarks, demonstrating that it can reduce hallucination rates by a large margin compared to baselines, highlighting its potential to mitigate hallucinations. Code is available at https://github.com/zjunlp/DeCo.
arxiv情報
著者 | Chenxi Wang,Xiang Chen,Ningyu Zhang,Bozhong Tian,Haoming Xu,Shumin Deng,Huajun Chen |
発行日 | 2024-10-15 16:57:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google