要約
マルチモーダル大規模言語モデル (MLLM) は幻覚を起こすことが知られており、そのため実際の応用が制限されています。
最近の研究では、MLLM のパフォーマンスを向上させるために直接優先最適化 (DPO) を適用することが試みられていますが、幻覚の軽減においては一貫性のない改善が示されています。
この問題をより効果的に解決するために、MLLM の幻覚を軽減するための幻覚を対象とした直接嗜好最適化 (HDPO) を導入します。
これまでのアプローチとは異なり、私たちの方法は、幻覚の多様な形態と原因から取り組みます。
具体的には、MLLM 幻覚の原因として、(1) 不十分な視覚能力、(2) 長いコンテキスト生成、(3) マルチモーダル競合の 3 種類の嗜好ペア データを開発します。
実験結果は、私たちの方法が複数の幻覚評価データセットにわたって優れたパフォーマンスを達成し、ほとんどの最先端(SOTA)方法を上回り、私たちのアプローチの可能性を強調していることを示しています。
アブレーション研究と詳細な分析により、私たちの方法の有効性がさらに確認され、スケールアップによるさらなる改善の可能性が示唆されています。
要約(オリジナル)
Multimodal Large Language Models (MLLMs) are known to hallucinate, which limits their practical applications. Recent works have attempted to apply Direct Preference Optimization (DPO) to enhance the performance of MLLMs, but have shown inconsistent improvements in mitigating hallucinations. To address this issue more effectively, we introduce Hallucination-targeted Direct Preference Optimization (HDPO) to reduce hallucinations in MLLMs. Unlike previous approaches, our method tackles hallucinations from their diverse forms and causes. Specifically, we develop three types of preference pair data targeting the following causes of MLLM hallucinations: (1) insufficient visual capabilities, (2) long context generation, and (3) multimodal conflicts. Experimental results demonstrate that our method achieves superior performance across multiple hallucination evaluation datasets, surpassing most state-of-the-art (SOTA) methods and highlighting the potential of our approach. Ablation studies and in-depth analyses further confirm the effectiveness of our method and suggest the potential for further improvements through scaling up.
arxiv情報
著者 | Yuhan Fu,Ruobing Xie,Xingwu Sun,Zhanhui Kang,Xirong Li |
発行日 | 2024-11-15 18:56:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google