要約
大規模な言語モデルは、事実の質問にうまく答えることができますが、幻覚を起こしやすい傾向もあります。私たちは、LLM が正しい答えの知識を持っているにも関わらず幻覚を見続ける現象を、これまで幻覚に関する研究ではカバーされていなかった領域である推論力学の観点から調査します。
この分析は 2 つの重要なアイデアに基づいて実行されます。まず、同じ 3 つの知識を問いただし、異なる答えが得られる事実上の質問を特定します。
したがって、正しい出力と誤った出力におけるモデルの動作の違いは、幻覚が発生するときのパターンを示唆します。
次に、パターンを測定するために、残差ストリームから語彙空間へのマッピングを利用します。
正しいケースと幻覚のケースの間で、層の深さに沿った出力トークンの確率の異なるダイナミクスを明らかにします。
幻覚の場合、出力トークンの情報がモデルの後半段階で突然増加し、一貫した優位性を示すことはほとんどありません。
ダイナミック カーブを特徴として活用し、88% の成功率で幻覚予測を正確に検出できる分類器を構築します。
私たちの研究は、既知の事実に基づいてLLMの幻覚の理由を理解すること、そしてより重要なことに、彼らがいつ幻覚を見るかを正確に予測することに光を当てました。
要約(オリジナル)
Large language models are successful in answering factoid questions but are also prone to hallucination.We investigate the phenomenon of LLMs possessing correct answer knowledge yet still hallucinating from the perspective of inference dynamics, an area not previously covered in studies on hallucinations.We are able to conduct this analysis via two key ideas.First, we identify the factual questions that query the same triplet knowledge but result in different answers. The difference between the model behaviors on the correct and incorrect outputs hence suggests the patterns when hallucinations happen. Second, to measure the pattern, we utilize mappings from the residual streams to vocabulary space. We reveal the different dynamics of the output token probabilities along the depths of layers between the correct and hallucinated cases. In hallucinated cases, the output token’s information rarely demonstrates abrupt increases and consistent superiority in the later stages of the model. Leveraging the dynamic curve as a feature, we build a classifier capable of accurately detecting hallucinatory predictions with an 88\% success rate. Our study shed light on understanding the reasons for LLMs’ hallucinations on their known facts, and more importantly, on accurately predicting when they are hallucinating.
arxiv情報
著者 | Che Jiang,Biqing Qi,Xiangyu Hong,Dayuan Fu,Yang Cheng,Fandong Meng,Mo Yu,Bowen Zhou,Jie Zhou |
発行日 | 2024-03-29 06:48:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google