Interpreting Attention Layer Outputs with Sparse Autoencoders

要約

モデルのアクティベーションを解釈可能なコンポーネントに分解することは、メカニズムの解釈可能性における重要な未解決の問題です。
スパース オートエンコーダ (SAE) は、トレーニングされたトランスフォーマーの内部アクティベーションをスパースで解釈可能な特徴に分解するための一般的な方法であり、MLP レイヤーと残差ストリームに適用されています。
この研究では、アテンション層の出力で SAE をトレーニングし、ここでも SAE がまばらで解釈可能な分解を見つけることを示します。
これを、いくつかのモデル ファミリと最大 2B パラメータのトランスで実証します。
アテンション レイヤーによって計算された特徴の定性的研究を実行し、長距離コンテキスト、短距離コンテキスト、誘導特徴などの複数のファミリーを見つけます。
我々は、GPT-2 Small のすべてのヘッドの役割を定性的に研究し、ヘッドの少なくとも 90% が多意味である、つまり複数の無関係な役割を持っていると推定しています。
さらに、スパース オートエンコーダーが、研究者が以前の研究よりも詳細にモデルの動作を説明できるようにする便利なツールであることを示します。
たとえば、モデルに一見冗長に見える誘導ヘッドが多数ある理由の謎を調査し、SAE を使用して、一部のモデルは長いプレフィックスであるのに対し、他のモデルは短いプレフィックスであるという仮説を動機付け、これをより厳密な分析で確認します。
私たちは SAE を使用して、間接オブジェクト識別回路 (Wang et al.) によって実行される計算を分析し、SAE が因果的に意味のある中間変数を見つけ出すことを検証し、回路のセマンティクスについての理解を深めます。
私たちは、トレーニングされた SAE と、注意出力 SAE のレンズを通して任意のプロンプトを探索するためのツールをオープンソースにしています。

要約(オリジナル)

Decomposing model activations into interpretable components is a key open problem in mechanistic interpretability. Sparse autoencoders (SAEs) are a popular method for decomposing the internal activations of trained transformers into sparse, interpretable features, and have been applied to MLP layers and the residual stream. In this work we train SAEs on attention layer outputs and show that also here SAEs find a sparse, interpretable decomposition. We demonstrate this on transformers from several model families and up to 2B parameters. We perform a qualitative study of the features computed by attention layers, and find multiple families: long-range context, short-range context and induction features. We qualitatively study the role of every head in GPT-2 Small, and estimate that at least 90% of the heads are polysemantic, i.e. have multiple unrelated roles. Further, we show that Sparse Autoencoders are a useful tool that enable researchers to explain model behavior in greater detail than prior work. For example, we explore the mystery of why models have so many seemingly redundant induction heads, use SAEs to motivate the hypothesis that some are long-prefix whereas others are short-prefix, and confirm this with more rigorous analysis. We use our SAEs to analyze the computation performed by the Indirect Object Identification circuit (Wang et al.), validating that the SAEs find causally meaningful intermediate variables, and deepening our understanding of the semantics of the circuit. We open-source the trained SAEs and a tool for exploring arbitrary prompts through the lens of Attention Output SAEs.

arxiv情報

著者 Connor Kissane,Robert Krzyzanowski,Joseph Isaac Bloom,Arthur Conmy,Neel Nanda
発行日 2024-06-25 17:43:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク