Improving Dictionary Learning with Gated Sparse Autoencoders

要約

最近の研究では、スパース オートエンコーダ (SAE) が、LM アクティベーションのスパースで線形な再構成を見つけることにより、言語モデル (LM) アクティベーションにおける解釈可能な特徴を教師なしで発見するための効果的な手法であることが判明しました。
ゲート付きスパース オートエンコーダー (ゲート付き SAE) を紹介します。これは、一般的な手法でのトレーニングに比べてパレートの改善を実現します。
SAE では、スパース性を促進するために使用される L1 ペナルティにより、機能のアクティベーションの体系的な過小評価である縮小など、多くの望ましくないバイアスが導入されます。
Gated SAE の重要な洞察は、(a) どの方向を使用するかを決定する機能と、(b) それらの方向の大きさを推定する機能を分離することです。これにより、L1 ペナルティを前者にのみ適用し、望ましくない側の範囲を制限することができます。
効果。
最大 7B パラメータの LM で SAE をトレーニングすることにより、典型的なハイパーパラメータ範囲では、ゲート付き SAE が収縮を解決し、同様に解釈可能であり、同等の再構築忠実度を達成するには半分の数の発射特徴が必要であることがわかりました。

要約(オリジナル)

Recent work has found that sparse autoencoders (SAEs) are an effective technique for unsupervised discovery of interpretable features in language models’ (LMs) activations, by finding sparse, linear reconstructions of LM activations. We introduce the Gated Sparse Autoencoder (Gated SAE), which achieves a Pareto improvement over training with prevailing methods. In SAEs, the L1 penalty used to encourage sparsity introduces many undesirable biases, such as shrinkage — systematic underestimation of feature activations. The key insight of Gated SAEs is to separate the functionality of (a) determining which directions to use and (b) estimating the magnitudes of those directions: this enables us to apply the L1 penalty only to the former, limiting the scope of undesirable side effects. Through training SAEs on LMs of up to 7B parameters we find that, in typical hyper-parameter ranges, Gated SAEs solve shrinkage, are similarly interpretable, and require half as many firing features to achieve comparable reconstruction fidelity.

arxiv情報

著者 Senthooran Rajamanoharan,Arthur Conmy,Lewis Smith,Tom Lieberum,Vikrant Varma,János Kramár,Rohin Shah,Neel Nanda
発行日 2024-04-30 17:54:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク