The Mirage of Performance Gains: Why Contrastive Decoding Fails to Address Multimodal Hallucination

要約

対照的なデコード戦略は、マルチモーダルの大手言語モデル(MLLM)の幻覚を減らすために広く使用されています。
これらの方法は、幻覚を誘発するために対照的なサンプルを構築し、出力分布でそれらを抑制することにより機能します。
しかし、この論文は、そのようなアプローチが幻覚の問題を効果的に軽減できないことを示しています。
教皇ベンチマークで観察されるパフォーマンスの改善は、主に2つの誤解を招く要因によって駆動されます。(1)モデルの出力分布に対する粗い一方的な調整と(2)サンプリング戦略を貪欲な検索に削減する適応的妥当性の制約。
これらの問題をさらに説明するために、一連の偽の改善方法を紹介し、コントラストのデコード技術に対するパフォーマンスを評価します。
実験結果は、対照的なデコードで観察されたパフォーマンスの向上は、幻覚を緩和するという意図した目標とはまったく関係がないことを明らかにしています。
私たちの調査結果は、対照的な解読戦略の有効性に関する一般的な仮定に挑戦し、MLLMSの幻覚に対する真に効果的なソリューションを開発する方法を繰り返します。

要約(オリジナル)

Contrastive decoding strategies are widely used to reduce hallucinations in multimodal large language models (MLLMs). These methods work by constructing contrastive samples to induce hallucinations and then suppressing them in the output distribution. However, this paper demonstrates that such approaches fail to effectively mitigate the hallucination problem. The performance improvements observed on POPE Benchmark are largely driven by two misleading factors: (1) crude, unidirectional adjustments to the model’s output distribution and (2) the adaptive plausibility constraint, which reduces the sampling strategy to greedy search. To further illustrate these issues, we introduce a series of spurious improvement methods and evaluate their performance against contrastive decoding techniques. Experimental results reveal that the observed performance gains in contrastive decoding are entirely unrelated to its intended goal of mitigating hallucinations. Our findings challenge common assumptions about the effectiveness of contrastive decoding strategies and pave the way for developing genuinely effective solutions to hallucinations in MLLMs.

arxiv情報

著者 Hao Yin,Guangzong Si,Zilei Wang
発行日 2025-04-18 11:30:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク