Low-Rank Adapting Models for Sparse Autoencoders

要約

スパース自動エンコーダー(SAE)は、言語モデルの表現を、線形潜在ベクトルのまばらなセットに分解します。
最近の研究では、言語モデルの勾配を使用してSAEが改善されていますが、これらの手法では、トレーニング中に多くの高価な後方パスが必要であり、SAEの再構成がモデルに挿入されると、クロスエントロピー損失が大幅に増加する必要があります。
この作業では、根本的に異なるアプローチをとることにより、これらの制限を改善します。低ランク適応(LORA)を使用して、以前に訓練されたSAEの周りで言語モデル自体を微調整します。
SAEのGemma ScopeファミリーのSAEスパース、SAE幅、言語モデルサイズ、ロラランク、およびモデル層を介した方法を分析します。
これらの設定では、私たちの方法により、SAEがフォワードパス中に挿入されると、クロスエントロピー損失ギャップが30%減少して55%減少します。
また、エンドツーエンド(E2E)SAEと比較して、私たちのアプローチは、同じ下流のクロスエントロピー損失3 $ \ Times $から20 $ \ Times $をgemma-2-2b、2 $ \ times $に達成することがわかります。
Llama-3.2-1Bで10 $ \ Times $が高速。
さらに、私たちの手法が下流のメトリックを改善し、一度に複数のSAEを適応できることを示します。
我々の結果は、モデルの解釈性を改善することが事後のSAEトレーニングに限定されないことを示しています。
パレートの改善は、モデル自体を直接最適化することでも実現できます。

要約(オリジナル)

Sparse autoencoders (SAEs) decompose language model representations into a sparse set of linear latent vectors. Recent works have improved SAEs using language model gradients, but these techniques require many expensive backward passes during training and still cause a significant increase in cross entropy loss when SAE reconstructions are inserted into the model. In this work, we improve on these limitations by taking a fundamentally different approach: we use low-rank adaptation (LoRA) to finetune the language model itself around a previously trained SAE. We analyze our method across SAE sparsity, SAE width, language model size, LoRA rank, and model layer on the Gemma Scope family of SAEs. In these settings, our method reduces the cross entropy loss gap by 30% to 55% when SAEs are inserted during the forward pass. We also find that compared to end-to-end (e2e) SAEs, our approach achieves the same downstream cross entropy loss 3$\times$ to 20$\times$ faster on Gemma-2-2B and 2$\times$ to 10$\times$ faster on Llama-3.2-1B. We further show that our technique improves downstream metrics and can adapt multiple SAEs at once. Our results demonstrate that improving model interpretability is not limited to post-hoc SAE training; Pareto improvements can also be achieved by directly optimizing the model itself.

arxiv情報

著者 Matthew Chen,Joshua Engels,Max Tegmark
発行日 2025-01-31 18:59:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク