Mitigating Hallucinations in Large Vision-Language Models via Entity-Centric Multimodal Preference Optimization

要約

大規模な視覚言語モデル(LVLMS)は、複数のタスクにわたって印象的な機能を実証しています。
しかし、それらの信頼性はしばしば幻覚によって挑戦されます。幻覚は、モダリティの不整合と、基礎となる大手言語モデル(LLMS)バックボーンの固有の幻覚に起因する可能性があります。
既存の選好アラインメントメソッドは、画像テキストモダリティアラインメントを無視しながら、モデル応答を人間の好みに合わせて整合することに焦点を当て、LLMSと幻覚に過度に依存します。
このホワイトペーパーでは、既存の人間優先アライメント方法よりも強化されたモダリティアライメントを実現するエンティティ中心のマルチモーダル選好最適化(EMPO)を提案します。
さらに、高品質のマルチモーダル選好データの希少性を克服するために、オープンソース命令データセットを利用して、画像、命令、および応答の3つの側面にわたって高品質の優先データを自動的に構築します。
2つの人間の好みのデータセットと5つのマルチモーダル幻覚ベンチマークでの実験は、EMPOの有効性を示しています。たとえば、幻覚率をオブジェクトハルベンチで85.9%、MMハルベンチで49.8%削減します。

要約(オリジナル)

Large Visual Language Models (LVLMs) have demonstrated impressive capabilities across multiple tasks. However, their trustworthiness is often challenged by hallucinations, which can be attributed to the modality misalignment and the inherent hallucinations of their underlying Large Language Models (LLMs) backbone. Existing preference alignment methods focus on aligning model responses with human preferences while neglecting image-text modality alignment, resulting in over-reliance on LLMs and hallucinations. In this paper, we propose Entity-centric Multimodal Preference Optimization (EMPO), which achieves enhanced modality alignment than existing human preference alignment methods. Besides, to overcome the scarcity of high-quality multimodal preference data, we utilize open-source instruction datasets to automatically construct high-quality preference data across three aspects: image, instruction, and response. Experiments on two human preference datasets and five multimodal hallucination benchmarks demonstrate the effectiveness of EMPO, e.g., reducing hallucination rates by 85.9% on Object-HalBench and 49.8% on MM-HalBench.

arxiv情報

著者 Jiulong Wu,Zhengliang Shi,Shuaiqiang Wang,Jizhou Huang,Dawei Yin,Lingyong Yan,Min Cao,Min Zhang
発行日 2025-06-04 15:03:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク