要約
大規模言語モデル (LLM) は、信頼性はあるものの不正確な応答を頻繁に生成し、安全性が重要なドメインへの導入に重大なリスクをもたらします。
我々は、コンテキストが不十分または曖昧な入力を処理する際に、モデル層全体にわたる情報フローを体系的に分析することにより、モデルの幻覚を検出する新しいアプローチを提案します。
私たちの調査により、幻覚は層間伝送における利用可能な情報の欠如として現れることが明らかになりました。
既存のアプローチは主に最終層の出力解析に焦点を当てていますが、層間の情報ダイナミクス ($\mathcal{L}$I) を追跡することで、計算中の情報の獲得と損失の両方を考慮したモデルの信頼性の堅牢な指標が提供されることを実証します。
$\mathcal{L}$I は、追加のトレーニングやアーキテクチャの変更を行わずにユニバーサル LLM と即座に統合することで、モデルの信頼性を向上させます。
要約(オリジナル)
Large language models (LLMs) frequently generate confident yet inaccurate responses, introducing significant risks for deployment in safety-critical domains. We present a novel approach to detecting model hallucination through systematic analysis of information flow across model layers when processing inputs with insufficient or ambiguous context. Our investigation reveals that hallucination manifests as usable information deficiencies in inter-layer transmissions. While existing approaches primarily focus on final-layer output analysis, we demonstrate that tracking cross-layer information dynamics ($\mathcal{L}$I) provides robust indicators of model reliability, accounting for both information gain and loss during computation. $\mathcal{L}$I improves model reliability by immediately integrating with universal LLMs without additional training or architectural modifications.
arxiv情報
著者 | Hazel Kim,Adel Bibi,Philip Torr,Yarin Gal |
発行日 | 2024-12-13 16:14:49+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google