MIRAGE: Assessing Hallucination in Multimodal Reasoning Chains of MLLM

要約

マルチモーダル大手言語モデル(MLLMS)のマルチモーダル幻覚は、MLLMの正確性を制限します。
ただし、マルチモーダルの幻覚はマルチソースであり、多様な原因から生じます。
既存のベンチマークは、知覚誘発性の幻覚と推論によって誘発される幻覚を適切に区別できません。
この障害は重要な問題を構成し、MLLM内のマルチモーダル推論の障害の診断を妨げます。
これに対処するために、{\ dataset}ベンチマークを提案します。これは、入力画像がmllmsによって正しく知覚されるが、推論エラーが持続する質問を作成することにより、推論の幻覚を分離します。
{\ dataset}は、幻覚の定量化のための精度、事実性、およびLLMS幻覚スコア:多粒度評価メトリックを導入します。
私たちの分析により、(1)モデルスケール、データスケール、およびトレーニング段階が、論理、製造、および事実の幻覚の程度に大きく影響することが明らかになりました。
(2)現在のMLLMは、誤解された空間関係によって引き起こされる空間幻覚に効果的な改善を示しており、視覚的推論能力が限られていることを示しています。
(3)質問タイプは、ターゲットを絞った課題と潜在的な緩和戦略を強調し、明確な幻覚パターンと相関しています。
これらの課題に対処するために、{\ Method}を提案します。これは、カリキュラム強化の微調整を組み合わせて、学習の難しさを段階的に減らし、推論の複雑さを減らすための共同ヒントの推論を段階的に減らすことにより、モデルが論理一貫した推論チェーンを生成するよう奨励する方法です。
{\ method}は、{\ dataset}のベースラインを確立し、元のベースモデルの論理的な幻覚を削減します。

要約(オリジナル)

Multimodal hallucination in multimodal large language models (MLLMs) restricts the correctness of MLLMs. However, multimodal hallucinations are multi-sourced and arise from diverse causes. Existing benchmarks fail to adequately distinguish between perception-induced hallucinations and reasoning-induced hallucinations. This failure constitutes a significant issue and hinders the diagnosis of multimodal reasoning failures within MLLMs. To address this, we propose the {\dataset} benchmark, which isolates reasoning hallucinations by constructing questions where input images are correctly perceived by MLLMs yet reasoning errors persist. {\dataset} introduces multi-granular evaluation metrics: accuracy, factuality, and LLMs hallucination score for hallucination quantification. Our analysis reveals that (1) the model scale, data scale, and training stages significantly affect the degree of logical, fabrication, and factual hallucinations; (2) current MLLMs show no effective improvement on spatial hallucinations caused by misinterpreted spatial relationships, indicating their limited visual reasoning capabilities; and (3) question types correlate with distinct hallucination patterns, highlighting targeted challenges and potential mitigation strategies. To address these challenges, we propose {\method}, a method that combines curriculum reinforcement fine-tuning to encourage models to generate logic-consistent reasoning chains by stepwise reducing learning difficulty, and collaborative hint inference to reduce reasoning complexity. {\method} establishes a baseline on {\dataset}, and reduces the logical hallucinations in original base models.

arxiv情報

著者 Bowen Dong,Minheng Ni,Zitong Huang,Guanglei Yang,Wangmeng Zuo,Lei Zhang
発行日 2025-06-02 04:16:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク