SAEBench: A Comprehensive Benchmark for Sparse Autoencoders in Language Model Interpretability

要約

Sparse Autoencoders(SAE)は、言語モデルの活性化を解釈するための一般的な手法であり、SAEの有効性の向上に関する最近の広範な作業があります。
ただし、ほとんどの以前の研究は、監視されていないプロキシメトリックを使用して、不明確な実用的な関連性を備えた進捗を評価します。
Saebenchを紹介します。Saebenchは、7つの多様なメトリックにわたってSAEのパフォーマンスを測定する包括的な評価スイートであり、解釈可能性、特徴の解き、および学習などの実用的なアプリケーションにまたがります。
体系的な比較を可能にするために、最近提案された8つのSAEアーキテクチャとトレーニングアルゴリズムにまたがる200を超えるSAEのスイートをオープンソースします。
私たちの評価は、プロキシメトリックの利益が確実に実用的なパフォーマンスに確実に変換されないことを明らかにしています。
たとえば、Matryoshkaは既存のプロキシメトリックでわずかにパフォーマンスが低下していますが、機能の解き角メトリックの他のアーキテクチャを大幅に上回ります。
さらに、この利点はSAEスケールで成長します。
SAE開発の進捗状況を測定するための標準化されたフレームワークを提供することにより、Saebenchは研究者がスケーリングの傾向を研究し、さまざまなSAEアーキテクチャとトレーニング方法間の微妙な比較を行うことができます。
インタラクティブなインターフェイスにより、研究者は何百ものオープンソースSAEのメトリック間の関係を柔軟に視覚化できます:https://saebench.xyz

要約(オリジナル)

Sparse autoencoders (SAEs) are a popular technique for interpreting language model activations, and there is extensive recent work on improving SAE effectiveness. However, most prior work evaluates progress using unsupervised proxy metrics with unclear practical relevance. We introduce SAEBench, a comprehensive evaluation suite that measures SAE performance across seven diverse metrics, spanning interpretability, feature disentanglement and practical applications like unlearning. To enable systematic comparison, we open-source a suite of over 200 SAEs across eight recently proposed SAE architectures and training algorithms. Our evaluation reveals that gains on proxy metrics do not reliably translate to better practical performance. For instance, while Matryoshka SAEs slightly underperform on existing proxy metrics, they substantially outperform other architectures on feature disentanglement metrics; moreover, this advantage grows with SAE scale. By providing a standardized framework for measuring progress in SAE development, SAEBench enables researchers to study scaling trends and make nuanced comparisons between different SAE architectures and training methodologies. Our interactive interface enables researchers to flexibly visualize relationships between metrics across hundreds of open-source SAEs at: https://saebench.xyz

arxiv情報

著者 Adam Karvonen,Can Rager,Johnny Lin,Curt Tigges,Joseph Bloom,David Chanin,Yeu-Tong Lau,Eoin Farrell,Callum McDougall,Kola Ayonrinde,Matthew Wearden,Arthur Conmy,Samuel Marks,Neel Nanda
発行日 2025-03-13 03:18:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク