Sparse Autoencoders Reveal Universal Feature Spaces Across Large Language Models

要約

私たちは、大規模な言語モデル(LLMS)の特徴普遍性を調査します。これは、さまざまなモデルが中間層の潜在空間の概念を同様に表す方法を理解することを目的とする研究分野です。
特徴の普遍性を実証することで、潜在的な表現に関する発見がいくつかのモデルで一般化できます。
ただし、LLMS全体の特徴を比較することは、個々のニューロンが異なる機能ではなく複数の機能に対応することが多いため、多数症の性能のために困難であるため、異なるモデルの特徴を解くと一致させることが困難です。
この問題に対処するために、スパースオートエンコーダー(SAE)を使用してLLMアクティベーションを個々の機能に対応するニューロンに及ぶより解釈可能なスペースに変換することにより、辞書学習として知られる方法を採用します。
アクティベーション相関を介してモデル全体の特徴ニューロンを一致させると、異なるLLMにわたってSAE特徴スペースに表現空間類似性メトリックを適用します。
私たちの実験は、さまざまなLLMのSAE特徴スペースの重要な類似点を明らかにしており、特徴の普遍性の新しい証拠を提供します。

要約(オリジナル)

We investigate feature universality in large language models (LLMs), a research field that aims to understand how different models similarly represent concepts in the latent spaces of their intermediate layers. Demonstrating feature universality allows discoveries about latent representations to generalize across several models. However, comparing features across LLMs is challenging due to polysemanticity, in which individual neurons often correspond to multiple features rather than distinct ones, making it difficult to disentangle and match features across different models. To address this issue, we employ a method known as dictionary learning by using sparse autoencoders (SAEs) to transform LLM activations into more interpretable spaces spanned by neurons corresponding to individual features. After matching feature neurons across models via activation correlation, we apply representational space similarity metrics on SAE feature spaces across different LLMs. Our experiments reveal significant similarities in SAE feature spaces across various LLMs, providing new evidence for feature universality.

arxiv情報

著者 Michael Lan,Philip Torr,Austin Meek,Ashkan Khakzar,David Krueger,Fazl Barez
発行日 2025-01-31 15:27:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク