Semantic Volume: Quantifying and Detecting both External and Internal Uncertainty in LLMs

要約

大規模な言語モデル(LLM)は、膨大な量の事実知識をエンコードすることにより、多様なタスク全体で顕著なパフォーマンスを実証しています。
しかし、彼らはまだ幻覚を起こしやすく、誤ったまたは誤解を招く情報を生成し、しばしば高い不確実性を伴います。
幻覚検出のための既存の方法は、主に、モデル内の知識の欠落または矛盾する知識から生じる内部の不確実性の定量化に焦点を当てています。
ただし、幻覚は、曖昧なユーザークエリが複数の可能な解釈につながる外部の不確実性に起因する可能性もあります。
この作業では、LLMSの外部と内部の両方の不確実性を定量化するための新しい数学的尺度であるセマンティックボリュームを紹介します。
私たちのアプローチは、摂食と応答の質問と応答を埋め込み、埋め込みベクターのグラムマトリックスの決定要因を計算し、不確実性の尺度として分散をキャプチャします。
私たちのフレームワークは、LLMSへのホワイトボックスアクセスを必要とせずに、一般化可能で監視されていない不確実性検出方法を提供します。
外部および内部の不確実性検出の両方で広範な実験を実施し、セマンティックボリューム方法が両方のタスクで既存のベースラインを常に上回ることを示しています。
さらに、私たちの尺度を差別的エントロピーにリンクする理論的洞察を提供し、セマンティックエントロピーなどの以前のサンプリングベースの不確実性測定を統合し、拡張します。
セマンティックボリュームは、ユーザークエリとモデル応答の両方の不確実性を体系的に検出することにより、LLMの信頼性を改善するための堅牢で解釈可能なアプローチであることが示されています。

要約(オリジナル)

Large language models (LLMs) have demonstrated remarkable performance across diverse tasks by encoding vast amounts of factual knowledge. However, they are still prone to hallucinations, generating incorrect or misleading information, often accompanied by high uncertainty. Existing methods for hallucination detection primarily focus on quantifying internal uncertainty, which arises from missing or conflicting knowledge within the model. However, hallucinations can also stem from external uncertainty, where ambiguous user queries lead to multiple possible interpretations. In this work, we introduce Semantic Volume, a novel mathematical measure for quantifying both external and internal uncertainty in LLMs. Our approach perturbs queries and responses, embeds them in a semantic space, and computes the determinant of the Gram matrix of the embedding vectors, capturing their dispersion as a measure of uncertainty. Our framework provides a generalizable and unsupervised uncertainty detection method without requiring white-box access to LLMs. We conduct extensive experiments on both external and internal uncertainty detection, demonstrating that our Semantic Volume method consistently outperforms existing baselines in both tasks. Additionally, we provide theoretical insights linking our measure to differential entropy, unifying and extending previous sampling-based uncertainty measures such as the semantic entropy. Semantic Volume is shown to be a robust and interpretable approach to improving the reliability of LLMs by systematically detecting uncertainty in both user queries and model responses.

arxiv情報

著者 Xiaomin Li,Zhou Yu,Ziji Zhang,Yingying Zhuang,Swair Shah,Anurag Beniwal
発行日 2025-03-04 17:31:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク