要約
大規模な言語モデルにおける幻覚は広く見られる問題ですが、モデルが幻覚を起こすかどうかの背後にあるメカニズムはほとんど理解されていないため、この問題を解決する能力は限られています。
スパース オートエンコーダを解釈ツールとして使用すると、これらのメカニズムの重要な部分がエンティティ認識であることがわかります。エンティティが事実を思い出すことができるエンティティかどうかをモデルが検出します。
スパースオートエンコーダは、表現空間内の意味のある方向を明らかにします。これらは、モデルがエンティティを認識するかどうかを検出します。
それを検出しても、スポーツ選手や映画についてはわかりません。
これは、モデルが自己知識、つまり自身の能力についての内部表現を持つことができることを示唆しています。
これらの指示は因果関係があり、既知の実体に関する質問への回答を拒否するようにモデルを操作したり、そうでなければ拒否するはずの未知の実体の属性を幻覚させたりすることができます。
私たちは、スパースオートエンコーダーが基本モデルでトレーニングされているにもかかわらず、これらの指示がチャットモデルの拒否動作に因果関係を持っていることを実証し、チャットの微調整がこの既存のメカニズムを再利用していることを示唆しています。
さらに、モデルにおけるこれらの方向の機構的役割についての初期調査を提供し、これらの方向が通常エンティティ属性を最終トークンに移動する下流のヘッドの注意を妨げることを発見しました。
要約(オリジナル)
Hallucinations in large language models are a widespread problem, yet the mechanisms behind whether models will hallucinate are poorly understood, limiting our ability to solve this problem. Using sparse autoencoders as an interpretability tool, we discover that a key part of these mechanisms is entity recognition, where the model detects if an entity is one it can recall facts about. Sparse autoencoders uncover meaningful directions in the representation space, these detect whether the model recognizes an entity, e.g. detecting it doesn’t know about an athlete or a movie. This suggests that models can have self-knowledge: internal representations about their own capabilities. These directions are causally relevant: capable of steering the model to refuse to answer questions about known entities, or to hallucinate attributes of unknown entities when it would otherwise refuse. We demonstrate that despite the sparse autoencoders being trained on the base model, these directions have a causal effect on the chat model’s refusal behavior, suggesting that chat finetuning has repurposed this existing mechanism. Furthermore, we provide an initial exploration into the mechanistic role of these directions in the model, finding that they disrupt the attention of downstream heads that typically move entity attributes to the final token.
arxiv情報
著者 | Javier Ferrando,Oscar Obeso,Senthooran Rajamanoharan,Neel Nanda |
発行日 | 2024-11-21 16:05:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google