In-Context Sharpness as Alerts: An Inner Representation Perspective for Hallucination Mitigation

要約

大規模言語モデル (LLM) は頻繁に幻覚を起こし、事実上の誤りを引き起こしますが、なぜこのような誤りが生じるのかについての理解は依然として限られています。
この研究では、内部表現の観点から LLM 幻覚の根底にあるメカニズムを掘り下げ、幻覚に関連する顕著なパターンを発見しました。正しい世代は、正しい世代と比較して、コンテキスト内トークンの隠れた状態でより鋭いコンテキストの活性化を持つ傾向があります。
間違ったもの。
この洞察を活用して、コンテキスト内の隠れ状態間の「鮮明さ」を定量化するエントロピーベースのメトリクスを提案し、それを復号プロセスに組み込んで、制約付き復号アプローチを定式化します。
さまざまな知識探索および幻覚ベンチマークに関する実験では、TruthfulQA で最大 8.6 ポイントの改善を達成するなど、当社のアプローチの一貫した有効性が実証されています。
私たちは、この研究が幻覚についての理解を深め、幻覚を軽減するための実用的な解決策となると信じています。

要約(オリジナル)

Large language models (LLMs) frequently hallucinate and produce factual errors, yet our understanding of why they make these errors remains limited. In this study, we delve into the underlying mechanisms of LLM hallucinations from the perspective of inner representations, and discover a salient pattern associated with hallucinations: correct generations tend to have sharper context activations in the hidden states of the in-context tokens, compared to the incorrect ones. Leveraging this insight, we propose an entropy-based metric to quantify the “sharpness” among the in-context hidden states and incorporate it into the decoding process to formulate a constrained decoding approach. Experiments on various knowledge-seeking and hallucination benchmarks demonstrate our approach’s consistent effectiveness, for example, achieving up to an 8.6 point improvement on TruthfulQA. We believe this study can improve our understanding of hallucinations and serve as a practical solution for hallucination mitigation.

arxiv情報

著者 Shiqi Chen,Miao Xiong,Junteng Liu,Zhengxuan Wu,Teng Xiao,Siyang Gao,Junxian He
発行日 2024-03-05 18:41:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク