要約
ニューラルネットワーク表現は、抽象的で解釈可能な特徴を、直線的にアクセス可能な、ほぼ直交する方向として符号化するという仮説に動機づけられ、スパースオートエンコーダ(SAE)は、解釈可能性において人気のあるツールとなっている。しかし、最近の研究では、階層的、非線形的、多次元的な特徴を示すなど、この仮説の範囲外のモデル表現の現象性が示されている。SAEは、その動機となる仮説とは相反する構造を持つ特徴を表現しているのだろうか?もしそうでないなら、このミスマッチを回避することが、当該特徴を特定し、神経回路網表現に関する更なる洞察を得るのに役立つのだろうか?これらの問いに答えるために、我々は構築ベースのアプローチを取り、スパースコーディングから一般的なマッチング追求(MP)アルゴリズムを再文脈化し、MP-SAEを設計する–残差ガイドされたステップのシーケンスにエンコーダを展開するSAEであり、階層的で非線形にアクセス可能な特徴を捕捉することを可能にする。(i)階層的概念は、既存のSAEでは忠実に捕捉できない、条件付き直交特徴を引き起こす。(ii)MP-SAEの非線形符号化ステップは、非常に意味のある特徴を復元し、視覚言語モデルにおける異なるモダリティの一見二項対立的な表現空間における共有構造を解明するのに役立つ。また、MP-SAEの逐次エンコーダの原理は、推論時に適応的なスパース性という付加的な利点をもたらすことも示す。全体として、我々の結果は、解釈可能性は表現の現象論から始まり、それに適合する仮定から手法が生まれるべきであるという考えに信憑性を与えるものであると主張する。
要約(オリジナル)
Motivated by the hypothesis that neural network representations encode abstract, interpretable features as linearly accessible, approximately orthogonal directions, sparse autoencoders (SAEs) have become a popular tool in interpretability. However, recent work has demonstrated phenomenology of model representations that lies outside the scope of this hypothesis, showing signatures of hierarchical, nonlinear, and multi-dimensional features. This raises the question: do SAEs represent features that possess structure at odds with their motivating hypothesis? If not, does avoiding this mismatch help identify said features and gain further insights into neural network representations? To answer these questions, we take a construction-based approach and re-contextualize the popular matching pursuits (MP) algorithm from sparse coding to design MP-SAE — an SAE that unrolls its encoder into a sequence of residual-guided steps, allowing it to capture hierarchical and nonlinearly accessible features. Comparing this architecture with existing SAEs on a mixture of synthetic and natural data settings, we show: (i) hierarchical concepts induce conditionally orthogonal features, which existing SAEs are unable to faithfully capture, and (ii) the nonlinear encoding step of MP-SAE recovers highly meaningful features, helping us unravel shared structure in the seemingly dichotomous representation spaces of different modalities in a vision-language model, hence demonstrating the assumption that useful features are solely linearly accessible is insufficient. We also show that the sequential encoder principle of MP-SAE affords an additional benefit of adaptive sparsity at inference time, which may be of independent interest. Overall, we argue our results provide credence to the idea that interpretability should begin with the phenomenology of representations, with methods emerging from assumptions that fit it.
arxiv情報
著者 | Valérie Costa,Thomas Fel,Ekdeep Singh Lubana,Bahareh Tolooshams,Demba Ba |
発行日 | 2025-06-03 17:24:55+00:00 |
arxivサイト | arxiv_id(pdf) |