Finding Neurons in a Haystack: Case Studies with Sparse Probing

要約

タイトル:Sparse Probingによる針山からニューロンを見つけ出す:ケーススタディ

要約:

– 大規模な言語モデル(LLMs)の採用と展開は急速であるが、これらのモデルの内部計算は不透明であり、理解が不十分である。
– この研究では、LLMsの内部ニューロン活性化によって高レベルで人間味のある特徴がどのように表現されるかを理解しようとしている。
– 内部活性化に$k$-sparse線形分類器(プローブ)を訓練して入力の特徴の存在を予測し、$k$の値を変えて学習表現の疎さとモデルスケールとの関係を調べる。
– $k=1$の場合、特定の特徴に高度に関連する個々のニューロンを局所化し、LLMsの一般的な特性を示すために多数のケーススタディを行う。
– 特に、早い層は、多くの特徴を重ね合わせて表現するために疎なニューロンの組み合わせを使用し、中間層には高レベルの文脈的特徴を表現するための専用のニューロンがあることを示し、モデル規模を拡大すると表現の疎さが平均的に増加するが、複数のスケーリングのダイナミクスがあることを示す。
– 全体で、70百万から6.9十億のパラメータを持つ7つのモデルで10の異なるカテゴリに属する100以上のユニークな特徴を調査する。

要約(オリジナル)

Despite rapid adoption and deployment of large language models (LLMs), the internal computations of these models remain opaque and poorly understood. In this work, we seek to understand how high-level human-interpretable features are represented within the internal neuron activations of LLMs. We train $k$-sparse linear classifiers (probes) on these internal activations to predict the presence of features in the input; by varying the value of $k$ we study the sparsity of learned representations and how this varies with model scale. With $k=1$, we localize individual neurons which are highly relevant for a particular feature, and perform a number of case studies to illustrate general properties of LLMs. In particular, we show that early layers make use of sparse combinations of neurons to represent many features in superposition, that middle layers have seemingly dedicated neurons to represent higher-level contextual features, and that increasing scale causes representational sparsity to increase on average, but there are multiple types of scaling dynamics. In all, we probe for over 100 unique features comprising 10 different categories in 7 different models spanning 70 million to 6.9 billion parameters.

arxiv情報

著者 Wes Gurnee,Neel Nanda,Matthew Pauly,Katherine Harvey,Dmitrii Troitskii,Dimitris Bertsimas
発行日 2023-05-02 17:13:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.LG パーマリンク