Automatically Interpreting Millions of Features in Large Language Models

要約

ディープ ニューラル ネットワークにおけるニューロンの活性化には通常、人間が理解できる単純な解釈はありませんが、スパース オートエンコーダー (SAE) を使用すると、これらの活性化をより簡単に解釈できる高次元の潜在空間に変換できます。
ただし、これらの SAE には何百万もの異なる潜在的な特徴がある可能性があるため、人間がそれぞれを手動で解釈することは不可能です。
この作業では、LLM を使用して SAE 機能の自然言語説明を生成および評価するオープンソースの自動パイプラインを構築します。
2 つの異なるオープンウェイト LLM でトレーニングされた、さまざまなサイズ、活性化関数、損失の SAE でフレームワークをテストします。
以前の最先端技術よりも低コストで説明の品質を評価するための 5 つの新しい手法を紹介します。
これらの手法の 1 つである介入スコアリングは、特徴に対する介入の効果の解釈可能性を評価します。これにより、既存の方法では想起されない特徴が説明されることがわかります。
私たちは、より広範なアクティブ化コンテキストに対して有効な、より良い説明を生成するためのガイドラインを提案し、既存のスコアリング手法の落とし穴について議論します。
私たちは説明を使用して、独立してトレーニングされた SAE の意味的類似性を測定し、残差ストリームの近くの層でトレーニングされた SAE が非常に類似していることを発見しました。
私たちの大規模な分析により、たとえ最高額の後処理を使用してニューロンがスパース化された場合でも、SAE 潜在は実際にニューロンよりもはるかに解釈可能であることが確認されました。
私たちのコードは https://github.com/EleutherAI/sae-auto-interp で入手でき、説明は https://huggingface.co/datasets/EleutherAI/auto_interp_explanations で入手できます。

要約(オリジナル)

While the activations of neurons in deep neural networks usually do not have a simple human-understandable interpretation, sparse autoencoders (SAEs) can be used to transform these activations into a higher-dimensional latent space which may be more easily interpretable. However, these SAEs can have millions of distinct latent features, making it infeasible for humans to manually interpret each one. In this work, we build an open-source automated pipeline to generate and evaluate natural language explanations for SAE features using LLMs. We test our framework on SAEs of varying sizes, activation functions, and losses, trained on two different open-weight LLMs. We introduce five new techniques to score the quality of explanations that are cheaper to run than the previous state of the art. One of these techniques, intervention scoring, evaluates the interpretability of the effects of intervening on a feature, which we find explains features that are not recalled by existing methods. We propose guidelines for generating better explanations that remain valid for a broader set of activating contexts, and discuss pitfalls with existing scoring techniques. We use our explanations to measure the semantic similarity of independently trained SAEs, and find that SAEs trained on nearby layers of the residual stream are highly similar. Our large-scale analysis confirms that SAE latents are indeed much more interpretable than neurons, even when neurons are sparsified using top-$k$ postprocessing. Our code is available at https://github.com/EleutherAI/sae-auto-interp, and our explanations are available at https://huggingface.co/datasets/EleutherAI/auto_interp_explanations.

arxiv情報

著者 Gonçalo Paulo,Alex Mallen,Caden Juang,Nora Belrose
発行日 2024-12-04 17:03:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク