Lookback Lens: Detecting and Mitigating Contextual Hallucinations in Large Language Models Using Only Attention Maps

要約

ある文章を要約したり、質問に答えたりするよう求められると、大規模言語モデル(LLM)は詳細を幻覚し、入力文脈に対して不正確な根拠のない答えを返すことがある。本稿では、このような文脈の幻覚を検出するための簡単なアプローチについて述べる。我々は、文脈の幻覚は、LLMが提供された文脈の情報に注意を払う程度と、LLM自身の世代の情報に注意を払う程度とが関係していると仮定する。この直感に基づき、文脈に対する注意の重みと新しく生成されたトークンに対する注意の重みの比を入力特徴量とする簡単な幻覚検出モデルを提案する(各注意ヘッドに対して)。我々は、これらのルックバック比特徴に基づく線形分類器が、LLMやテキストベースの含意モデルの隠れた状態全体を利用する、よりリッチな検出器と同程度に効果的であることを発見した。ルックバック比に基づく検出器(Lookback Lens)は、タスクやモデルさえも横断的に移行することがわかり、7Bのモデルで学習した検出器を(再学習することなく)より大きな13Bのモデルに適用することができる。さらに、この検出器を文脈による幻覚を軽減するために適用し、単純な分類器ガイド付きデコーディングアプローチにより、例えばXSum要約タスクにおいて9.6%の幻覚の量を減らすことができることを発見した。

要約(オリジナル)

When asked to summarize articles or answer questions given a passage, large language models (LLMs) can hallucinate details and respond with unsubstantiated answers that are inaccurate with respect to the input context. This paper describes a simple approach for detecting such contextual hallucinations. We hypothesize that contextual hallucinations are related to the extent to which an LLM attends to information in the provided context versus its own generations. Based on this intuition, we propose a simple hallucination detection model whose input features are given by the ratio of attention weights on the context versus newly generated tokens (for each attention head). We find that a linear classifier based on these lookback ratio features is as effective as a richer detector that utilizes the entire hidden states of an LLM or a text-based entailment model. The lookback ratio-based detector — Lookback Lens — is found to transfer across tasks and even models, allowing a detector that is trained on a 7B model to be applied (without retraining) to a larger 13B model. We further apply this detector to mitigate contextual hallucinations, and find that a simple classifier-guided decoding approach is able to reduce the amount of hallucination, for example by 9.6% in the XSum summarization task.

arxiv情報

著者 Yung-Sung Chuang,Linlu Qiu,Cheng-Yu Hsieh,Ranjay Krishna,Yoon Kim,James Glass
発行日 2024-10-03 17:26:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク