TPC: Cross-Temporal Prediction Connection for Vision-Language Model Hallucination Reduction

要約

ビジョン言語モデル(VLM)は、多様なタスク全体の大規模な言語モデル(LLM)の印象的な能力を活用して、顕著な進歩を達成しました。
それにもかかわらず、幻覚として知られる重要な課題は、モデルが画像に存在しないオブジェクトや属性を過度に自信して記述している場合に発生します。これは、VLMが言語的事前に依存する傾向によって悪化する問題です。
この制限により、ハイステークスアプリケーションでのモデルの信頼性が低下します。
この作業では、ロジッツの連続性の一貫性の強化の特性を観察し、タイムステップを横切ってそれらを時間的に接続することによりロジットの意味的な一貫性を高めるように設計された、直接的で効率的な方法、クロスポラル予測接続(TPC)を導入しました。
TPCは情報の流れを増幅し、一貫性を改善し、幻覚を効果的に減らします。
広範な実験では、TPCが既存の代表者を上回り、精度と効率の両方で優れたパフォーマンスを提供しながら、自由回答形式のテキスト生成タスクの堅牢性を維持することが示されています。

要約(オリジナル)

Vision-language models (VLMs) have achieved remarkable advancements, capitalizing on the impressive capabilities of large language models (LLMs) across diverse tasks. Despite this, a critical challenge known as hallucination occurs when models overconfidently describe objects or attributes absent from the image, a problem exacerbated by the tendency of VLMs to rely on linguistic priors. This limitation reduces model reliability in high-stakes applications. In this work, we have observed the characteristic of logits’ continuity consistency enhancement and introduced a straightforward and efficient method, Cross-Temporal Prediction Connection (TPC), designed to enhance the semantic consistency of logits by connecting them temporally across timesteps. TPC amplifies information flow and improves coherence, effectively reducing hallucination. Extensive experiments show that TPC surpasses existing representatives, delivering superior performance in both accuracy and efficiency while maintaining robustness in open-ended text generation tasks.

arxiv情報

著者 Chao Wang,Weiwei Fu,Yang Zhou
発行日 2025-03-06 14:11:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク