LLMs Know More Than They Show: On the Intrinsic Representation of LLM Hallucinations

要約

大規模言語モデル(LLM)は、事実誤認、偏り、推論の失敗など、「幻覚」と総称される誤りをしばしば生じる。最近の研究では、LLMの内部状態がその出力の真偽に関する情報を符号化し、この情報を利用して誤りを検出できることが実証されている。本研究では、LLMの内部表現が、従来認識されていたよりもはるかに多くの真実性に関する情報を符号化していることを示す。我々はまず、真実性情報が特定のトークンに集中していることを発見し、この特性を活用することで誤り検出性能が大幅に向上することを示す。しかし、このような誤り検出器はデータセット間で一般化できないことを示し、真実性の符号化は普遍的ではなく、むしろ多面的であることを示唆する。次に、内部表現が、モデルが犯しやすい誤りのタイプを予測するためにも利用できることを示し、その結果、モデルに合わせた緩和戦略の開発が容易になることを示す。最後に、LLMの内部符号化と外部行動との間に矛盾があることを明らかにする。LLMは正しい答えを符号化しているにもかかわらず、一貫して間違った答えを生成することがある。これらの洞察を総合すると、モデルの内部的な観点からLLMのエラーについての理解が深まり、エラー分析とエラー緩和の強化に関する今後の研究の指針となる。

要約(オリジナル)

Large language models (LLMs) often produce errors, including factual inaccuracies, biases, and reasoning failures, collectively referred to as ‘hallucinations’. Recent studies have demonstrated that LLMs’ internal states encode information regarding the truthfulness of their outputs, and that this information can be utilized to detect errors. In this work, we show that the internal representations of LLMs encode much more information about truthfulness than previously recognized. We first discover that the truthfulness information is concentrated in specific tokens, and leveraging this property significantly enhances error detection performance. Yet, we show that such error detectors fail to generalize across datasets, implying that — contrary to prior claims — truthfulness encoding is not universal but rather multifaceted. Next, we show that internal representations can also be used for predicting the types of errors the model is likely to make, facilitating the development of tailored mitigation strategies. Lastly, we reveal a discrepancy between LLMs’ internal encoding and external behavior: they may encode the correct answer, yet consistently generate an incorrect one. Taken together, these insights deepen our understanding of LLM errors from the model’s internal perspective, which can guide future research on enhancing error analysis and mitigation.

arxiv情報

著者 Hadas Orgad,Michael Toker,Zorik Gekhman,Roi Reichart,Idan Szpektor,Hadas Kotek,Yonatan Belinkov
発行日 2024-10-03 17:31:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: 68T50, cs.AI, cs.CL, I.2.7 パーマリンク