Measuring Progress in Dictionary Learning for Language Model Interpretability with Board Game Models

要約

言語モデル (LM) 表現にはどのような潜在的な機能がエンコードされていますか?
LM 表現における解釈可能な特徴のもつれを解くためにスパース オートエンコーダ (SAE) をトレーニングする最近の研究は、大きな期待を示しています。
ただし、良好な SAE が回復すると期待される、解釈可能な特徴のグラウンドトゥルースのコレクションが不足しているため、これらの SAE の品質を評価することは困難です。
したがって、我々は、チェスとオセロのトランスクリプトで訓練されたLMの設定で作業することによって、解釈可能な辞書学習の進歩を測定することを提案します。
これらの設定には、解釈可能な特徴の自然なコレクション (たとえば、「F3 に騎士がいます」) が含まれており、これを SAE 品質の $\textit{supervised}$ メトリクスに活用します。
解釈可能な辞書学習の進歩を導くために、新しい SAE トレーニング手法 $\textit{p-annealing}$ を導入します。これにより、以前の教師なしメトリクスと新しいメトリクスのパフォーマンスが向上します。

要約(オリジナル)

What latent features are encoded in language model (LM) representations? Recent work on training sparse autoencoders (SAEs) to disentangle interpretable features in LM representations has shown significant promise. However, evaluating the quality of these SAEs is difficult because we lack a ground-truth collection of interpretable features that we expect good SAEs to recover. We thus propose to measure progress in interpretable dictionary learning by working in the setting of LMs trained on chess and Othello transcripts. These settings carry natural collections of interpretable features — for example, ‘there is a knight on F3’ — which we leverage into $\textit{supervised}$ metrics for SAE quality. To guide progress in interpretable dictionary learning, we introduce a new SAE training technique, $\textit{p-annealing}$, which improves performance on prior unsupervised metrics as well as our new metrics.

arxiv情報

著者 Adam Karvonen,Benjamin Wright,Can Rager,Rico Angell,Jannik Brinkmann,Logan Smith,Claudio Mayrink Verdun,David Bau,Samuel Marks
発行日 2024-10-30 14:21:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク