Shadows in the Attention: Contextual Perturbation and Representation Drift in the Dynamics of Hallucination in LLMs

要約

幻覚 – もっともらしいが誤った出力 – は、大規模な言語モデル(LLM)の信頼できる展開に対する重要な障壁のままです。
幻覚の発生率を、漸進的なコンテキストインジェクションによって誘発される内部状態ドリフトにリンクする最初の系統的研究を提示します。
Truthfulqaを使用して、質問ごとに2つの16ラウンドの「滴定」トラックを作成します。1つは関連性があるが部分的に欠陥のあるスニペットを追加し、もう1つは意図的に誤解を招くコンテンツを注入します。
6つのオープンソースLLMにまたがって、コサイン、エントロピー、JS、および隠れた状態と注意マップのスピアマンドリフトを介して、トライパリスペクト検出器とカバーダイナミクスを使用して、明白な幻覚率を追跡します。
結果は、(1)5-7ラウンドの後に幻覚の頻度と表現のドリフトの単調な成長を明らかにします。
(2)関連するコンテキストは、より深いセマンティック同化を促進し、高い自信を生み出します。
(3)JS-Drift($ \ Sim0.69 $)とSpearman-Drift($ \ sim0 $)の収束は、幻覚が固化し、補正に耐性になる「注意ロック」しきい値をマークします。
相関分析では、同化能力と注意の拡散、サイズ依存のエラーモードを明確にする間のシーソーを公開します。
これらの調査結果は、固有の幻覚予測とコンテキスト認識緩和メカニズムの経験的基礎を提供します。

要約(オリジナル)

Hallucinations — plausible yet erroneous outputs — remain a critical barrier to reliable deployment of large language models (LLMs). We present the first systematic study linking hallucination incidence to internal-state drift induced by incremental context injection. Using TruthfulQA, we construct two 16-round ‘titration’ tracks per question: one appends relevant but partially flawed snippets, the other injects deliberately misleading content. Across six open-source LLMs, we track overt hallucination rates with a tri-perspective detector and covert dynamics via cosine, entropy, JS and Spearman drifts of hidden states and attention maps. Results reveal (1) monotonic growth of hallucination frequency and representation drift that plateaus after 5–7 rounds; (2) relevant context drives deeper semantic assimilation, producing high-confidence ‘self-consistent’ hallucinations, whereas irrelevant context induces topic-drift errors anchored by attention re-routing; and (3) convergence of JS-Drift ($\sim0.69$) and Spearman-Drift ($\sim0$) marks an ‘attention-locking’ threshold beyond which hallucinations solidify and become resistant to correction. Correlation analyses expose a seesaw between assimilation capacity and attention diffusion, clarifying size-dependent error modes. These findings supply empirical foundations for intrinsic hallucination prediction and context-aware mitigation mechanisms.

arxiv情報

著者 Zeyu Wei,Shuo Wang,Xiaohui Rong,Xuemin Liu,He Li
発行日 2025-05-22 16:50:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク