Sparse Autoencoders Find Highly Interpretable Features in Language Models

要約

ニューラル ネットワークの内部をより深く理解するための障害の 1 つは \textit{多意味性} です。ニューロンは複数の意味的に異なるコンテキストで活性化するように見えます。
多意味性により、ニューラル ネットワークが内部で何を行っているかについて、人間が理解できる簡潔な説明を特定することができなくなります。
多意味性の仮説の原因の 1 つは \textit{重ね合わせ} です。この場合、ニューラル ネットワークは、個々のニューロンではなく、活性化空間内の過完全な方向のセットに特徴を割り当てることによって、ニューロンよりも多くの特徴を表現します。
ここでは、スパース オートエンコーダを使用して言語モデルの内部アクティベーションを再構築し、それらの方向を特定しようとします。
これらのオートエンコーダは、自動化された方法によって解釈可能性が測定される代替アプローチによって識別される方向よりも解釈可能で単一意味論的な、まばらにアクティブ化される特徴のセットを学習します。
さらに、学習した一連の特徴を使用すると、間接物体識別タスク \citep{wang2022interpretability} における反事実的な動作の原因となっている特徴を、以前の分解よりも詳細に特定できることを示します。
この研究は、スケーラブルな教師なし手法を使用して言語モデルの重ね合わせを解決できることを示しています。
私たちの手法は、将来の機構的解釈可能性の研究の基礎として機能する可能性があり、これによりモデルの透明性と操作性が向上することが期待されます。

要約(オリジナル)

One of the roadblocks to a better understanding of neural networks’ internals is \textit{polysemanticity}, where neurons appear to activate in multiple, semantically distinct contexts. Polysemanticity prevents us from identifying concise, human-understandable explanations for what neural networks are doing internally. One hypothesised cause of polysemanticity is \textit{superposition}, where neural networks represent more features than they have neurons by assigning features to an overcomplete set of directions in activation space, rather than to individual neurons. Here, we attempt to identify those directions, using sparse autoencoders to reconstruct the internal activations of a language model. These autoencoders learn sets of sparsely activating features that are more interpretable and monosemantic than directions identified by alternative approaches, where interpretability is measured by automated methods. Moreover, we show that with our learned set of features, we can pinpoint the features that are causally responsible for counterfactual behaviour on the indirect object identification task \citep{wang2022interpretability} to a finer degree than previous decompositions. This work indicates that it is possible to resolve superposition in language models using a scalable, unsupervised method. Our method may serve as a foundation for future mechanistic interpretability work, which we hope will enable greater model transparency and steerability.

arxiv情報

著者 Hoagy Cunningham,Aidan Ewart,Logan Riggs,Robert Huben,Lee Sharkey
発行日 2023-10-04 13:17:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク