要約
大規模なビジョン言語モデル(LVLMS)の最近の進歩にもかかわらず、これらのモデルは、提供された視覚入力と一致しない幻覚反応を生成することに依然として苦しんでいます。
このような幻覚を軽減するために、効率的なコントラストデコード(ECD)を導入します。これは、確率的幻覚検出を活用して、出力分布を推論時間に文脈的に正確な回答にシフトする簡単な方法です。
ECDは、トークンの確率と幻覚スコアを対比することにより、元の分布から幻覚の概念を差し引き、幻覚を効果的に抑制します。
特に、提案された方法は、オープンソースLVLMに適用でき、追加のLVLMトレーニングは必要ありません。
いくつかのベンチマークデータセットとさまざまなLVLMでの方法を評価します。
私たちの実験は、ECDが幻覚を効果的に軽減し、LVLMベンチマークと計算時間のパフォーマンスに関して最先端の方法を上回ることを示しています。
要約(オリジナル)
Despite recent advances in Large Vision Language Models (LVLMs), these models still suffer from generating hallucinatory responses that do not align with the visual input provided. To mitigate such hallucinations, we introduce Efficient Contrastive Decoding (ECD), a simple method that leverages probabilistic hallucination detection to shift the output distribution towards contextually accurate answers at inference time. By contrasting token probabilities and hallucination scores, ECD subtracts hallucinated concepts from the original distribution, effectively suppressing hallucinations. Notably, our proposed method can be applied to any open-source LVLM and does not require additional LVLM training. We evaluate our method on several benchmark datasets and across different LVLMs. Our experiments show that ECD effectively mitigates hallucinations, outperforming state-of-the-art methods with respect to performance on LVLM benchmarks and computation time.
arxiv情報
著者 | Laura Fieback,Nishilkumar Balar,Jakob Spiegelberg,Hanno Gottschalk |
発行日 | 2025-04-16 14:50:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google