Factual Self-Awareness in Language Models: Representation, Robustness, and Scaling

要約

生成されたコンテンツにおける事実の誤りは、大規模な言語モデル(LLM)の遍在的な展開における主要な関心事の1つです。
事前の調査結果は、LLMSが生成されたコンテンツの事実上の誤りを(つまり、事実確認後の生成)検出できることを示唆しています。
この作業では、世代の時点での事実のリコールの正確性を決定するLLMSの内部コンパスの存在を支持する証拠を提供します。
特定の主題エンティティと関係について、LLMSは、正しい属性(有効なエンティティリレーションアトリビュートリブレットを形成する)を思い出すことができるかどうかを決定するトランスの残留ストリームで線形機能を内部的にエンコードすることを実証します。
この自己認識信号は、マイナーなフォーマットのバリエーションに対して堅牢です。
さまざまな例選択戦略を介して、コンテキスト摂動の影響を調査します。
モデルのサイズとトレーニングのダイナミクス全体のスケーリング実験は、トレーニング中に自己認識が急速に現れることを強調し、中間層のピークがあります。
これらの調査結果は、LLMS内の固有の自己監視機能を明らかにし、その解釈可能性と信頼性に貢献しています。

要約(オリジナル)

Factual incorrectness in generated content is one of the primary concerns in ubiquitous deployment of large language models (LLMs). Prior findings suggest LLMs can (sometimes) detect factual incorrectness in their generated content (i.e., fact-checking post-generation). In this work, we provide evidence supporting the presence of LLMs’ internal compass that dictate the correctness of factual recall at the time of generation. We demonstrate that for a given subject entity and a relation, LLMs internally encode linear features in the Transformer’s residual stream that dictate whether it will be able to recall the correct attribute (that forms a valid entity-relation-attribute triplet). This self-awareness signal is robust to minor formatting variations. We investigate the effects of context perturbation via different example selection strategies. Scaling experiments across model sizes and training dynamics highlight that self-awareness emerges rapidly during training and peaks in intermediate layers. These findings uncover intrinsic self-monitoring capabilities within LLMs, contributing to their interpretability and reliability.

arxiv情報

著者 Hovhannes Tamoyan,Subhabrata Dutta,Iryna Gurevych
発行日 2025-05-27 16:24:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク