Towards Principled Evaluations of Sparse Autoencoders for Interpretability and Control

要約

モデルのアクティベーションを意味のある特徴に解きほぐすことは、解釈可能性における中心的な問題です。
ただし、現実的なシナリオではこれらの特徴に対するグラウンドトゥルースが存在しないため、スパース辞書学習などの最近のアプローチの検証は困難になります。
この課題に対処するために、私たちは \emph{教師付き} 特徴辞書と比較することによって、特定のタスクのコンテキストで特徴辞書を評価するためのフレームワークを提案します。
まず、教師あり辞書がタスクに関するモデル計算の優れた近似、制御、および解釈可能性を達成することを実証します。
次に、教師あり辞書を使用して、同じ 3 つの軸に沿った教師なし辞書の評価を開発し、文脈化します。
このフレームワークを、IOI または OpenWebText データセットでトレーニングされたスパース オートエンコーダー (SAE) を備えた GPT-2 Small を使用して、間接オブジェクト識別 (IOI) タスクに適用します。
これらの SAE は IOI タスクの解釈可能な特徴をキャプチャしますが、モデルの制御においては教師あり特徴よりも成功率が低いことがわかりました。
最後に、SAE トレーニングで 2 つの定性的現象が観察されます。特徴オクルージョン (因果的に関連する概念が、学習された特徴のわずかに高い強度の概念によってもしっかりと覆われる場合) と特徴の過剰分割 (バイナリ特徴が多数のより小さい、より低い特徴に分割される場合)
解釈可能な特徴)。
私たちのフレームワークが、スパース辞書学習方法のより客観的かつ根拠に基づいた評価に向けた有用な一歩となることを願っています。

要約(オリジナル)

Disentangling model activations into meaningful features is a central problem in interpretability. However, the absence of ground-truth for these features in realistic scenarios makes validating recent approaches, such as sparse dictionary learning, elusive. To address this challenge, we propose a framework for evaluating feature dictionaries in the context of specific tasks, by comparing them against \emph{supervised} feature dictionaries. First, we demonstrate that supervised dictionaries achieve excellent approximation, control, and interpretability of model computations on the task. Second, we use the supervised dictionaries to develop and contextualize evaluations of unsupervised dictionaries along the same three axes. We apply this framework to the indirect object identification (IOI) task using GPT-2 Small, with sparse autoencoders (SAEs) trained on either the IOI or OpenWebText datasets. We find that these SAEs capture interpretable features for the IOI task, but they are less successful than supervised features in controlling the model. Finally, we observe two qualitative phenomena in SAE training: feature occlusion (where a causally relevant concept is robustly overshadowed by even slightly higher-magnitude ones in the learned features), and feature over-splitting (where binary features split into many smaller, less interpretable features). We hope that our framework will provide a useful step towards more objective and grounded evaluations of sparse dictionary learning methods.

arxiv情報

著者 Aleksandar Makelov,George Lange,Neel Nanda
発行日 2024-05-20 17:46:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク