Sparse Autoencoders Can Interpret Randomly Initialized Transformers

要約

スパース自動エンコーダー(SAE)は、変圧器の内部表現を解釈するためのますます人気のある手法です。
この論文では、SAEを適用して、ランダム変圧器、つまりテキストデータでトレーニングされるのではなく、ガウスからパラメーターがサンプリングされる変圧器を「解釈」します。
ランダムと訓練を受けた変圧器は、同様に解釈可能なSAE潜水種を生成することがわかり、オープンソースの自動交換性パイプラインを使用して、この発見を定量的に確認します。
さらに、SAEの品質メトリックは、ランダムトランスと訓練された変圧器についてほぼ類似していることがわかります。
これらの結果は、モデルのサイズとレイヤーにわたって保持されていることがわかります。
私たちは、この作業がSAEの使用と機械的解釈性の文脈で自動変性能力のために提起する多くの興味深い質問について説明します。

要約(オリジナル)

Sparse autoencoders (SAEs) are an increasingly popular technique for interpreting the internal representations of transformers. In this paper, we apply SAEs to ‘interpret’ random transformers, i.e., transformers where the parameters are sampled IID from a Gaussian rather than trained on text data. We find that random and trained transformers produce similarly interpretable SAE latents, and we confirm this finding quantitatively using an open-source auto-interpretability pipeline. Further, we find that SAE quality metrics are broadly similar for random and trained transformers. We find that these results hold across model sizes and layers. We discuss a number of number interesting questions that this work raises for the use of SAEs and auto-interpretability in the context of mechanistic interpretability.

arxiv情報

著者 Thomas Heap,Tim Lawson,Lucy Farnik,Laurence Aitchison
発行日 2025-01-29 16:11:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク