Dense SAE Latents Are Features, Not Bugs

要約

スパース自動エンコーダー(SAE)は、スパース性の制約を強制することにより、言語モデルから解釈可能な機能を抽出するように設計されています。
理想的には、SAEを訓練すると、まばらで意味的に意味のある潜在性が得られます。
ただし、多くのSAE潜水種は頻繁に活性化されます(つまり、\ emphing {dense})。トレーニング手順の望ましくないアーティファクトである可能性があるという懸念を引き起こします。
この作業では、密集した潜在性のジオメトリ、関数、および起源を体系的に調査し、それらが持続的であるだけでなく、しばしば意味のあるモデル表現を反映していることを示します。
最初に、密集した潜在性は、残留ストリームの特定の方向を再構築する抗極極ペアを形成する傾向があり、サブスペースを除去すると、再訓練されたSAEの新しい密な特徴の出現を抑制することを実証します。
次に、密集した潜在性の分類法を導入し、位置追跡、コンテキストバインディング、エントロピー調節、文字固有の出力信号、スピーチ、および主成分再構成に関連するクラスを特定します。
最後に、これらの機能が層を越えてどのように進化するかを分析し、初期層の構造的特徴から、中層の意味的特徴、そして最後にモデルの最後の層の出力指向信号へのシフトを明らかにします。
私たちの調査結果は、密集した潜在性が言語モデルの計算において機能的役割に役立ち、トレーニングノイズとして却下されるべきではないことを示しています。

要約(オリジナル)

Sparse autoencoders (SAEs) are designed to extract interpretable features from language models by enforcing a sparsity constraint. Ideally, training an SAE would yield latents that are both sparse and semantically meaningful. However, many SAE latents activate frequently (i.e., are \emph{dense}), raising concerns that they may be undesirable artifacts of the training procedure. In this work, we systematically investigate the geometry, function, and origin of dense latents and show that they are not only persistent but often reflect meaningful model representations. We first demonstrate that dense latents tend to form antipodal pairs that reconstruct specific directions in the residual stream, and that ablating their subspace suppresses the emergence of new dense features in retrained SAEs — suggesting that high density features are an intrinsic property of the residual space. We then introduce a taxonomy of dense latents, identifying classes tied to position tracking, context binding, entropy regulation, letter-specific output signals, part-of-speech, and principal component reconstruction. Finally, we analyze how these features evolve across layers, revealing a shift from structural features in early layers, to semantic features in mid layers, and finally to output-oriented signals in the last layers of the model. Our findings indicate that dense latents serve functional roles in language model computation and should not be dismissed as training noise.

arxiv情報

著者 Xiaoqing Sun,Alessandro Stolfo,Joshua Engels,Ben Wu,Senthooran Rajamanoharan,Mrinmaya Sachan,Max Tegmark
発行日 2025-06-18 17:59:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク