Evaluating Sparse Autoencoders: From Shallow Design to Matching Pursuit

要約

スパース自動エンコーダー(SAE)は最近、解釈可能性のための中心的なツールになりました。辞書学習原則を活用して、基礎となる構造が一般的に不明である神経表現からまばらで解釈可能な特徴を抽出します。
このホワイトペーパーでは、MNISTを使用して制御された設定でSAEを評価します。これは、現在の浅いアーキテクチャが、相関する特徴を抽出する能力を制限する準正所性の仮定に暗黙的に依存していることを明らかにしています。
これを超えて、マッチング追跡(MP-SAE)を展開することによりマルチエリテーションSAEを導入し、手書きのデジット生成などの階層設定で生じる相関特徴の残留誘導抽出を可能にしながら、より多くのATOMが選択されるにつれて再構築の単調な改善を保証します。

要約(オリジナル)

Sparse autoencoders (SAEs) have recently become central tools for interpretability, leveraging dictionary learning principles to extract sparse, interpretable features from neural representations whose underlying structure is typically unknown. This paper evaluates SAEs in a controlled setting using MNIST, which reveals that current shallow architectures implicitly rely on a quasi-orthogonality assumption that limits the ability to extract correlated features. To move beyond this, we introduce a multi-iteration SAE by unrolling Matching Pursuit (MP-SAE), enabling the residual-guided extraction of correlated features that arise in hierarchical settings such as handwritten digit generation while guaranteeing monotonic improvement of the reconstruction as more atoms are selected.

arxiv情報

著者 Valérie Costa,Thomas Fel,Ekdeep Singh Lubana,Bahareh Tolooshams,Demba Ba
発行日 2025-06-05 16:57:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク