Confidence Regulation Neurons in Language Models

要約

大規模言語モデル (LLM) が広く使用されているにもかかわらず、次のトークンの予測における不確実性を表現および制御するメカニズムは、ほとんど解明されていないままです。
この研究では、この不確実性に影響を与えると考えられている 2 つの重要なコンポーネント、つまり最近発見されたエントロピー ニューロンと、トークン周波数ニューロンと呼ばれる新しいコンポーネント セットを調査します。
エントロピー ニューロンは異常に高い重みノルムを特徴とし、最終層の正規化 (LayerNorm) スケールに影響を与えてロジットを効果的にスケールダウンします。
私たちの研究は、エントロピー ニューロンが非埋め込みヌル空間に書き込むことによって動作し、ロジット自体への直接的な影響を最小限に抑えながら残差ストリーム ノルムに影響を与えることを可能にすることを示しています。
私たちは、最大 70 億のパラメーターに及ぶさまざまなモデルにわたってエントロピー ニューロンの存在を観察しています。
一方、ここで初めて発見して説明したトークン頻度ニューロンは、各トークンのロジットをその対数頻度に比例してブーストまたは抑制し、それによって出力分布をユニグラム分布に近づけたり、ユニグラム分布から遠ざけたりします。
最後に、エントロピー ニューロンが誘導の設定における信頼性を積極的に管理する、つまり、繰り返されるサブシーケンスを検出して継続する、詳細なケース スタディを紹介します。

要約(オリジナル)

Despite their widespread use, the mechanisms by which large language models (LLMs) represent and regulate uncertainty in next-token predictions remain largely unexplored. This study investigates two critical components believed to influence this uncertainty: the recently discovered entropy neurons and a new set of components that we term token frequency neurons. Entropy neurons are characterized by an unusually high weight norm and influence the final layer normalization (LayerNorm) scale to effectively scale down the logits. Our work shows that entropy neurons operate by writing onto an unembedding null space, allowing them to impact the residual stream norm with minimal direct effect on the logits themselves. We observe the presence of entropy neurons across a range of models, up to 7 billion parameters. On the other hand, token frequency neurons, which we discover and describe here for the first time, boost or suppress each token’s logit proportionally to its log frequency, thereby shifting the output distribution towards or away from the unigram distribution. Finally, we present a detailed case study where entropy neurons actively manage confidence in the setting of induction, i.e. detecting and continuing repeated subsequences.

arxiv情報

著者 Alessandro Stolfo,Ben Wu,Wes Gurnee,Yonatan Belinkov,Xingyi Song,Mrinmaya Sachan,Neel Nanda
発行日 2024-11-08 12:54:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク