Hallucination Augmented Contrastive Learning for Multimodal Large Language Model

要約

マルチモーダル大規模言語モデル (MLLM) は、自然言語と視覚情報を効率的に統合して、マルチモーダル タスクを処理することが示されています。
しかし、MLLM は依然として、誤った情報や捏造された情報を生成する傾向があるという幻覚の根本的な限界に直面しています。
この論文では、表現学習という新しい観点から MLLM における幻覚に取り組みます。
まず、MLLM におけるテキストとビジュアルのトークンの表現分布を分析し、2 つの重要な発見を明らかにしました。1) テキスト表現とビジュアル表現の間には大きなギャップがあり、クロスモーダル表現の整合性が不十分であることを示しています。
2) 幻覚を含むテキストと含まないテキストの表現が錯綜しており、それらを区別することが困難です。
これら 2 つの観察は、幻覚を軽減するためのシンプルかつ効果的な方法を私たちに与えてくれました。
具体的には、MLLM に対照学習を導入し、幻覚のあるテキストをハード ネガティブ サンプルとして使用します。これにより、非幻覚テキストと視覚サンプルの表現を自然に近づけながら、非幻覚テキストと幻覚テキストの表現を押し進めます。
私たちは手法を定量的および定性的に評価し、幻覚の発生を減らし、複数のベンチマーク全体でパフォーマンスを向上させる効果を示します。
MMhal-Bench ベンチマークでは、私たちの方法はベースライン MiniGPT-4/LLaVA と比較して 34.66% /29.5% の改善が得られました。
私たちのコードは https://github.com/X-PLUG/mPLUG-HalOwl/tree/main/hacl で入手できます。

要約(オリジナル)

Multi-modal large language models (MLLMs) have been shown to efficiently integrate natural language with visual information to handle multi-modal tasks. However, MLLMs still face a fundamental limitation of hallucinations, where they tend to generate erroneous or fabricated information. In this paper, we address hallucinations in MLLMs from a novel perspective of representation learning. We first analyzed the representation distribution of textual and visual tokens in MLLM, revealing two important findings: 1) there is a significant gap between textual and visual representations, indicating unsatisfactory cross-modal representation alignment; 2) representations of texts that contain and do not contain hallucinations are entangled, making it challenging to distinguish them. These two observations inspire us with a simple yet effective method to mitigate hallucinations. Specifically, we introduce contrastive learning into MLLMs and use text with hallucination as hard negative examples, naturally bringing representations of non-hallucinative text and visual samples closer while pushing way representations of non-hallucinating and hallucinative text. We evaluate our method quantitatively and qualitatively, showing its effectiveness in reducing hallucination occurrences and improving performance across multiple benchmarks. On the MMhal-Bench benchmark, our method obtains a 34.66% /29.5% improvement over the baseline MiniGPT-4/LLaVA. Our code is available on https://github.com/X-PLUG/mPLUG-HalOwl/tree/main/hacl.

arxiv情報

著者 Chaoya Jiang,Haiyang Xu,Mengfan Dong,Jiaxing Chen,Wei Ye,Ming Yan,Qinghao Ye,Ji Zhang,Fei Huang,Shikun Zhang
発行日 2024-01-25 13:01:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク