要約
Large Visual Language Model (LVLM) は、マルチモーダル データを理解する際に優れた能力を示していますが、常に幻覚に悩まされ、生成されたテキストと対応する画像の間に断絶が生じます。
現在のほぼすべての視覚対比復号化手法は、幻覚と対象の対比ロジットのギャップを適切に拡大する視覚的不確実性情報を導入することによって、これらの幻覚を軽減しようとします。
しかし、世界的な視覚的不確実性の制御不能な性質のため、幻覚トークンを正確に誘発するのは困難であり、幻覚を軽減する効果が大幅に制限され、望ましくない幻覚の生成につながる可能性さえあります。
この問題に取り組むために、私たちはコントラスト デコーディングの有効性を促進する理論分析を実施しました。
この洞察に基づいて、Hallucination-Induced Optimization (HIO) と呼ばれる新しい最適化戦略を導入します。
この戦略は、微調整された理論的選好モデル (つまり、逆ブラッドリー-テリー モデル) に基づいて幻覚トークンとターゲット トークンの間のコントラストを増幅することを目的としており、それによって、LVLM の幻覚を軽減するための効率的なコントラスト デコードが容易になります。
広範な実験研究により、当社の HIO 戦略が LVLM の幻覚を効果的に軽減でき、さまざまなベンチマークにわたって最先端の方法を上回るパフォーマンスを発揮できることが実証されています。
要約(オリジナル)
Although Large Visual Language Models (LVLMs) have demonstrated exceptional abilities in understanding multimodal data, they invariably suffer from hallucinations, leading to a disconnect between the generated text and the corresponding images. Almost all current visual contrastive decoding methods attempt to mitigate these hallucinations by introducing visual uncertainty information that appropriately widens the contrastive logits gap between hallucinatory and targeted ones. However, due to uncontrollable nature of the global visual uncertainty, they struggle to precisely induce the hallucinatory tokens, which severely limits their effectiveness in mitigating hallucinations and may even lead to the generation of undesired hallucinations. To tackle this issue, we conducted the theoretical analysis to promote the effectiveness of contrast decoding. Building on this insight, we introduce a novel optimization strategy named Hallucination-Induced Optimization (HIO). This strategy seeks to amplify the contrast between hallucinatory and targeted tokens relying on a fine-tuned theoretical preference model (i.e., Contrary Bradley-Terry Model), thereby facilitating efficient contrast decoding to alleviate hallucinations in LVLMs. Extensive experimental research demonstrates that our HIO strategy can effectively reduce hallucinations in LVLMs, outperforming state-of-the-art methods across various benchmarks.
arxiv情報
著者 | Beitao Chen,Xinyu Lyu,Lianli Gao,Jingkuan Song,Heng Tao Shen |
発行日 | 2024-11-19 13:18:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google