要約
最近の研究では、単一ユニットの機能と入出力回路の両方を局所化して介入する取り組みが成功し、言語モデルでの計算が人間に理解できる可能性があることが示されています。
ここでは、\textit{desiderata} のセット、つまりサブタスクを実行するモデル コンポーネントの因果属性を指定するだけで、特定のサブタスクの実行を担当するモデル コンポーネントを自動的に識別する、因果媒介実験を拡張するアプローチを紹介します。
概念実証として、LLaMA-13B の共有 \textit{変数バインディング回路} を自動的に検出する方法を適用し、複数の算術タスクの変数値を取得します。
私たちの方法では、最終トークンの残差ストリーム内の (1.6k のうち) 9 つのアテンション ヘッドと 1 つの MLP のみに変数バインディングを局所化することに成功しました。
要約(オリジナル)
Recent work has shown that computation in language models may be human-understandable, with successful efforts to localize and intervene on both single-unit features and input-output circuits. Here, we introduce an approach which extends causal mediation experiments to automatically identify model components responsible for performing a specific subtask by solely specifying a set of \textit{desiderata}, or causal attributes of the model components executing that subtask. As a proof of concept, we apply our method to automatically discover shared \textit{variable binding circuitry} in LLaMA-13B, which retrieves variable values for multiple arithmetic tasks. Our method successfully localizes variable binding to only 9 attention heads (of the 1.6k) and one MLP in the final token’s residual stream.
arxiv情報
著者 | Xander Davies,Max Nadeau,Nikhil Prakash,Tamar Rott Shaham,David Bau |
発行日 | 2023-07-07 14:51:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google