Uncovering Intermediate Variables in Transformers using Circuit Probing

要約

ニューラルネットワークモデルは、さまざまな複雑なタスクで高性能を達成していますが、実装するアルゴリズムは解釈が難しいことで有名です。
多くの場合、これらのアルゴリズムを理解するために、ネットワークの計算に関与する中間変数を仮定する必要があります。
たとえば、言語モデルは、文を生成するときに特定の構文特性に依存しますか?
しかし、既存の分析ツールにより、このタイプの仮説をテストすることが困難になります。
仮説の中間変数を計算する低レベルの回路を自動的に発見する新しい分析手法 – 回路プロービング – を提案します。
これにより、モデルパラメーターのレベルでの標的アブレーションによる因果分析が可能になります。
この方法を、単純な算術タスクでトレーニングされたモデルに適用し、モデルが学習したアルゴリズムを解読し、(2)モデル内のモジュラー構造を明らかにし、(3)トレーニングよりも回路の開発を追跡することで、その有効性を実証します。
これら3つの実験で、回路プローブが既存の方法の機能を組み合わせて拡張し、さまざまな分析に1つの統一されたアプローチを提供することを実証します。
最後に、現実世界のユースケースで回路プロービングを示します。GPT2-SmallおよびMediumの主題と反射性のANAPHORAの原因となる回路の発見です。

要約(オリジナル)

Neural network models have achieved high performance on a wide variety of complex tasks, but the algorithms that they implement are notoriously difficult to interpret. It is often necessary to hypothesize intermediate variables involved in a network’s computation in order to understand these algorithms. For example, does a language model depend on particular syntactic properties when generating a sentence? Yet, existing analysis tools make it difficult to test hypotheses of this type. We propose a new analysis technique – circuit probing – that automatically uncovers low-level circuits that compute hypothesized intermediate variables. This enables causal analysis through targeted ablation at the level of model parameters. We apply this method to models trained on simple arithmetic tasks, demonstrating its effectiveness at (1) deciphering the algorithms that models have learned, (2) revealing modular structure within a model, and (3) tracking the development of circuits over training. Across these three experiments we demonstrate that circuit probing combines and extends the capabilities of existing methods, providing one unified approach for a variety of analyses. Finally, we demonstrate circuit probing on a real-world use case: uncovering circuits that are responsible for subject-verb agreement and reflexive anaphora in GPT2-Small and Medium.

arxiv情報

著者 Michael A. Lepori,Thomas Serre,Ellie Pavlick
発行日 2025-02-12 18:24:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク