要約
オブジェクト幻覚(OH)は、大規模な視覚言語モデル(LVLMS)における主要な信頼できる課題の1つとして認められています。
大規模な言語モデル(LLMS)の最近の進歩は、隠された状態などの内部状態が生成された応答の「全体的な真実性」をエンコードすることを示しています。
ただし、LVLMSの内部状態がどのように機能するか、およびそれらが「トークンあたりの」幻覚指標として機能することができるかどうかは、OHを緩和するために不可欠であるかどうかを推奨していないままです。
この論文では、まずOHの問題に関連してLVLM内部状態の詳細な調査を実施し、(1)LVLM内部状態が幻覚行動のトークンあたりの高特性であることを発見します。
さらに、(2)異なるLVLMSは、一般的な潜在サブスペースの幻覚の普遍的なパターンをエンコードし、さまざまなLVLMが共有する「一般的な真実の方向」が存在することを示しています。
これらの発見に基づいて、LVLMデコードの真実の方向を最初に学習し、次にLVLMデコード中に真実のガイド付き推論時間介入を適用する真実の誘導前介入(TruthPrint)を提案します。
さらに、Comnhalluを提案して、幻覚の潜在サブスペースを構築および整列させることにより、クロスLVLMとクロスダータの幻覚検出移動性の両方を強化します。
人気のあるLVLMSおよびOHベンチマークよりも、ドメイン内およびドメイン外のシナリオを含む広範な実験設定でTruthPrintを評価します。
実験結果は、TruthPrintが最新の方法よりも大幅に優れていることを示しています。
コードはhttps://github.com/jinhaoduan/truthprintで入手できます。
要約(オリジナル)
Object Hallucination (OH) has been acknowledged as one of the major trustworthy challenges in Large Vision-Language Models (LVLMs). Recent advancements in Large Language Models (LLMs) indicate that internal states, such as hidden states, encode the ‘overall truthfulness’ of generated responses. However, it remains under-explored how internal states in LVLMs function and whether they could serve as ‘per-token’ hallucination indicators, which is essential for mitigating OH. In this paper, we first conduct an in-depth exploration of LVLM internal states in relation to OH issues and discover that (1) LVLM internal states are high-specificity per-token indicators of hallucination behaviors. Moreover, (2) different LVLMs encode universal patterns of hallucinations in common latent subspaces, indicating that there exist ‘generic truthful directions’ shared by various LVLMs. Based on these discoveries, we propose Truthful-Guided Pre-Intervention (TruthPrInt) that first learns the truthful direction of LVLM decoding and then applies truthful-guided inference-time intervention during LVLM decoding. We further propose ComnHallu to enhance both cross-LVLM and cross-data hallucination detection transferability by constructing and aligning hallucination latent subspaces. We evaluate TruthPrInt in extensive experimental settings, including in-domain and out-of-domain scenarios, over popular LVLMs and OH benchmarks. Experimental results indicate that TruthPrInt significantly outperforms state-of-the-art methods. Codes will be available at https://github.com/jinhaoduan/TruthPrInt.
arxiv情報
著者 | Jinhao Duan,Fei Kong,Hao Cheng,James Diffenderfer,Bhavya Kailkhura,Lichao Sun,Xiaofeng Zhu,Xiaoshuang Shi,Kaidi Xu |
発行日 | 2025-03-13 17:46:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google