要約
機械論的解釈可能性(mechanistic interpretability)に関する最近の研究では、言語モデルの動作は回路解析によってうまくリバースエンジニアリングできることが示されている。しかし、一般的な批判は、各回路はタスクに特化しているため、そのような解析はより高いレベルでのモデルの理解に貢献できないというものである。本研究では、(特定の頭部に関する低レベルの知見と、一般的なアルゴリズムに関する高レベルの知見の両方が)タスクを越えて実際に一般化できるという証拠を提示する。具体的には、Wangら(2022)で発見された間接物体識別(IOI)タスク用の回路を研究し、1.)より大きなGPT2モデル上で再現されること、2.)一見異なるタスクを解決するために、その回路がほとんど再利用されることを示す:Ippolito & Callison-Burch, 2023)。我々は、両課題の基礎となるプロセスが機能的に非常に類似しており、回路内の注意頭部が約78%重複していることを示す証拠を提供する。さらに、概念実証の介入実験を紹介する。この実験では、Colored Objects回路を「修復」し、IOI回路のように振る舞うようにするために、中間層の4つの注意の頭を調整する。そうすることで、Colored Objects課題の精度を49.6%から93.7%まで向上させ、エラーの原因のほとんどを説明することができた。この介入は、IOI回路における相互作用から予測される特定の方法で下流の注意ヘッドに影響を与え、このサブ回路の動作が異なる課題入力に対して不変であることを示している。全体として、我々の結果は、比較的少数の解釈可能なタスク一般的アルゴリズム構成要素と計算構成要素で大規模言語モデルの動作を説明することがまだ可能かもしれないという証拠を提供する。
要約(オリジナル)
Recent work in mechanistic interpretability has shown that behaviors in language models can be successfully reverse-engineered through circuit analysis. A common criticism, however, is that each circuit is task-specific, and thus such analysis cannot contribute to understanding the models at a higher level. In this work, we present evidence that insights (both low-level findings about specific heads and higher-level findings about general algorithms) can indeed generalize across tasks. Specifically, we study the circuit discovered in Wang et al. (2022) for the Indirect Object Identification (IOI) task and 1.) show that it reproduces on a larger GPT2 model, and 2.) that it is mostly reused to solve a seemingly different task: Colored Objects (Ippolito & Callison-Burch, 2023). We provide evidence that the process underlying both tasks is functionally very similar, and contains about a 78% overlap in in-circuit attention heads. We further present a proof-of-concept intervention experiment, in which we adjust four attention heads in middle layers in order to ‘repair’ the Colored Objects circuit and make it behave like the IOI circuit. In doing so, we boost accuracy from 49.6% to 93.7% on the Colored Objects task and explain most sources of error. The intervention affects downstream attention heads in specific ways predicted by their interactions in the IOI circuit, indicating that this subcircuit behavior is invariant to the different task inputs. Overall, our results provide evidence that it may yet be possible to explain large language models’ behavior in terms of a relatively small number of interpretable task-general algorithmic building blocks and computational components.
arxiv情報
著者 | Jack Merullo,Carsten Eickhoff,Ellie Pavlick |
発行日 | 2024-05-06 14:31:32+00:00 |
arxivサイト | arxiv_id(pdf) |