要約
スパース自動エンコーダー(SAE)は、言語モデルのアクティベーションを解釈可能な線形特徴に分解するための有望な手法です。
ただし、現在のSAEはモデルのパフォーマンスを完全に説明することではありません。その結果、「暗黒物質」が生じます。
この研究は、それ自体が研究の対象として暗黒物質を調査しています。
驚くべきことに、SAE暗黒物質の多くは、エラーベクトル自体の約半分とその標準の90%以上 – が初期アクティブ化ベクトルから直線的に予測できることがわかります。
さらに、トークンあたりのレベルでのSAEエラー規範のスケーリング動作は非常に予測可能であることがわかります。より大きなSAEは、より小さなSAEと同じコンテキストを再構築するのに苦労しています。
線形表現仮説を立てて、これらの観察につながる可能性のある活性化のモデルを提案します。
これらの洞察は、線形予測(「非線形」誤差)を線形に予測できないSAEエラーベクトルの部分が、線形予測可能なコンポーネントと根本的に異なる可能性があることを意味します。
この仮説を検証するために、非線形SAEエラーを経験的に分析し、1)まだ学習されていない機能が少なく、2)訓練されたSAEが定量的に悪化し、3)SAE活性化がモデルに挿入されたときのクロスエントロピー損失の下流の増加の比例量の原因となることを示します。
最後に、非線形SAEエラーを減らすための2つの方法を調べます:推論時間勾配追跡は、非線形誤差の非常にわずかな減少と、以前の層SAE出力からの線形変換につながり、より大きな削減につながります。
要約(オリジナル)
Sparse autoencoders (SAEs) are a promising technique for decomposing language model activations into interpretable linear features. However, current SAEs fall short of completely explaining model performance, resulting in ‘dark matter’: unexplained variance in activations. This work investigates dark matter as an object of study in its own right. Surprisingly, we find that much of SAE dark matter — about half of the error vector itself and >90% of its norm — can be linearly predicted from the initial activation vector. Additionally, we find that the scaling behavior of SAE error norms at a per token level is remarkably predictable: larger SAEs mostly struggle to reconstruct the same contexts as smaller SAEs. We build on the linear representation hypothesis to propose models of activations that might lead to these observations. These insights imply that the part of the SAE error vector that cannot be linearly predicted (‘nonlinear’ error) might be fundamentally different from the linearly predictable component. To validate this hypothesis, we empirically analyze nonlinear SAE error and show that 1) it contains fewer not yet learned features, 2) SAEs trained on it are quantitatively worse, and 3) it is responsible for a proportional amount of the downstream increase in cross entropy loss when SAE activations are inserted into the model. Finally, we examine two methods to reduce nonlinear SAE error: inference time gradient pursuit, which leads to a very slight decrease in nonlinear error, and linear transformations from earlier layer SAE outputs, which leads to a larger reduction.
arxiv情報
著者 | Joshua Engels,Logan Riggs,Max Tegmark |
発行日 | 2025-03-25 17:00:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google