LLM Internal States Reveal Hallucination Risk Faced With a Query

要約

大規模言語モデル(LLM)の幻覚問題は、その信頼性と信用性を著しく制限する。人間には、クエリに直面したときに自分の知らないことを認識する自己認識のプロセスがある。これにヒントを得て、本稿では、LLMが応答生成前に自身の幻覚リスクを推定できるかどうかを調査する。LLMの内部メカニズムを、学習データソースと、700以上のデータセットにまたがる15の多様な自然言語生成(NLG)タスクの両面から幅広く分析する。(1)LLMの内部状態は、訓練データでクエリを見たことがあるかないかを示す、(2)LLMの内部状態は、クエリに関して幻覚を見る可能性があるかないかを示す。本研究では、LLMの不確実性と幻覚リスクの知覚に重要な役割を果たす特定のニューロン、活性化層、トークンを探索する。プロービング推定器により、LLMの自己評価を活用し、実行時に平均84.32%の幻覚推定精度を達成した。

要約(オリジナル)

The hallucination problem of Large Language Models (LLMs) significantly limits their reliability and trustworthiness. Humans have a self-awareness process that allows us to recognize what we don’t know when faced with queries. Inspired by this, our paper investigates whether LLMs can estimate their own hallucination risk before response generation. We analyze the internal mechanisms of LLMs broadly both in terms of training data sources and across 15 diverse Natural Language Generation (NLG) tasks, spanning over 700 datasets. Our empirical analysis reveals two key insights: (1) LLM internal states indicate whether they have seen the query in training data or not; and (2) LLM internal states show they are likely to hallucinate or not regarding the query. Our study explores particular neurons, activation layers, and tokens that play a crucial role in the LLM perception of uncertainty and hallucination risk. By a probing estimator, we leverage LLM self-assessment, achieving an average hallucination estimation accuracy of 84.32\% at run time.

arxiv情報

著者 Ziwei Ji,Delong Chen,Etsuko Ishii,Samuel Cahyawijaya,Yejin Bang,Bryan Wilie,Pascale Fung
発行日 2024-07-03 17:08:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク