Transcoders Beat Sparse Autoencoders for Interpretability

要約

スパースオートエンコーダー(SAE)は、活性化をスパースで高次元の潜在空間に変換し、これらの潜在性の活性化を再構築することにより、深いニューラルネットワークから人間の解釈可能な特徴を抽出します。
トランスコダーはSAEに似ていますが、入力を考慮して、深いネットワークのコンポーネントの出力を再構築するようにトレーニングされています。
この作業では、同じモデルとデータでトレーニングされたトランスコダーとSAEが見つかった機能を比較し、トランスコダーの機能が大幅に解釈可能であることがわかります。
また、スキップトランスコダーを提案します。これにより、トランスコダーアーキテクチャへのアフィンスキップ接続が追加され、これらが解釈可能性に影響を与えずに低い再構成損失を達成することが示されます。

要約(オリジナル)

Sparse autoencoders (SAEs) extract human-interpretable features from deep neural networks by transforming their activations into a sparse, higher dimensional latent space, and then reconstructing the activations from these latents. Transcoders are similar to SAEs, but they are trained to reconstruct the output of a component of a deep network given its input. In this work, we compare the features found by transcoders and SAEs trained on the same model and data, finding that transcoder features are significantly more interpretable. We also propose skip transcoders, which add an affine skip connection to the transcoder architecture, and show that these achieve lower reconstruction loss with no effect on interpretability.

arxiv情報

著者 Gonçalo Paulo,Stepan Shabalin,Nora Belrose
発行日 2025-02-12 18:35:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク