A is for Absorption: Studying Feature Splitting and Absorption in Sparse Autoencoders

要約

スパース自動エンコーダー(SAE)は、大規模な言語モデル(LLM)の活性化空間を人間の解釈可能な潜在的方向または特徴に分解することを目指しています。
SAEの機能の数を増やすと、階層的な機能がより細かい機能に分かれ(「数学」が「代数」、「ジオメトリ」などに分割される可能性があります)、機能分割と呼ばれる現象です。
ただし、階層的特徴のまばらな分解と分割が堅牢ではないことを示しています。
具体的には、一見単調な機能が必要な場所に発射できず、代わりに子供の機能に「吸収」されることを示します。
この現象の特徴を吸収し、基礎となる特徴が階層を形成するたびにSAEのスパースを最適化することによって引き起こされることを示しています。
SAEの吸収を検出するためのメトリックを導入し、数百のLLM SAEでの調査結果を経験的に検証します。
私たちの調査では、SAEのサイズやスパースの変化がこの問題を解決するには不十分であることが示唆されています。
SAEにおける特徴吸収の意味と、SAEがLLMを堅牢かつ規模に解釈するために使用する前に、基本的な理論的問題を解決するためのいくつかの潜在的なアプローチについて説明します。

要約(オリジナル)

Sparse Autoencoders (SAEs) aim to decompose the activation space of large language models (LLMs) into human-interpretable latent directions or features. As we increase the number of features in the SAE, hierarchical features tend to split into finer features (‘math’ may split into ‘algebra’, ‘geometry’, etc.), a phenomenon referred to as feature splitting. However, we show that sparse decomposition and splitting of hierarchical features is not robust. Specifically, we show that seemingly monosemantic features fail to fire where they should, and instead get ‘absorbed’ into their children features. We coin this phenomenon feature absorption, and show that it is caused by optimizing for sparsity in SAEs whenever the underlying features form a hierarchy. We introduce a metric to detect absorption in SAEs, and validate our findings empirically on hundreds of LLM SAEs. Our investigation suggests that varying SAE sizes or sparsity is insufficient to solve this issue. We discuss the implications of feature absorption in SAEs and some potential approaches to solve the fundamental theoretical issues before SAEs can be used for interpreting LLMs robustly and at scale.

arxiv情報

著者 David Chanin,James Wilken-Smith,Tomáš Dulka,Hardik Bhatnagar,Satvik Golechha,Joseph Bloom
発行日 2025-06-02 10:58:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク