要約
迅速な言語モデル(LLMS)の幻覚を検出するための新しいアプローチを提示します。
直感に反して、幻覚応答は、接地された応答と比較してプロンプトからのより小さな逸脱を示すことがわかります。
この洞察を活用して、分布距離を原則的な幻覚スコアとして使用し、外部の知識または補助モデルの必要性を排除するモデルintringsic検出方法を提案します。
感度を高めるために、分布間の微妙な幾何学的違いをキャプチャするために自動的に適応する深い学習可能なカーネルを採用しています。
私たちのアプローチは、既存のベースラインよりも優れており、いくつかのベンチマークで最先端のパフォーマンスを示しています。
この方法は、カーネルトレーニングがなくても競争力があり、幻覚検出のための堅牢でスケーラブルなソリューションを提供します。
要約(オリジナル)
We present a novel approach for detecting hallucinations in large language models (LLMs) by analyzing the probabilistic divergence between prompt and response hidden-state distributions. Counterintuitively, we find that hallucinated responses exhibit smaller deviations from their prompts compared to grounded responses, suggesting that hallucinations often arise from superficial rephrasing rather than substantive reasoning. Leveraging this insight, we propose a model-intrinsic detection method that uses distributional distances as principled hallucination scores, eliminating the need for external knowledge or auxiliary models. To enhance sensitivity, we employ deep learnable kernels that automatically adapt to capture nuanced geometric differences between distributions. Our approach outperforms existing baselines, demonstrating state-of-the-art performance on several benchmarks. The method remains competitive even without kernel training, offering a robust, scalable solution for hallucination detection.
arxiv情報
著者 | Rodion Oblovatny,Alexandra Bazarova,Alexey Zaytsev |
発行日 | 2025-06-11 15:59:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google