Towards Automated Circuit Discovery for Mechanistic Interpretability

要約

タイトル:機械的解釈性のための自動回路発見に向けて

要約:

– これまでの研究でも、深層学習モデルの複雑な挙動を解釈するために、研究者の直感と相当な努力が必要だった。
– しかし、研究者がデータセットと指標を作成し、ネットワークを抽象化単位に分割し、抽象化単位の活性化を置き換えることで、それらが行う機能を理解する方法は、基本的に似たようなワークフローである。
– この研究では、自動的に重要な単位を特定するアルゴリズム「ACDC」を提案している。ACDCは、モデルの計算グラフから、モデルの挙動を説明するサブグラフを見つけることができる。
– ACDCは、小さなTransformerモデルでPythonのドキュメントストリングに対して以前に特定された回路を再現し、3層まで構成された7つの重要なアテンションヘッドを特定し、接続を91%減らした。

要約(オリジナル)

Recent work in mechanistic interpretability has reverse-engineered nontrivial behaviors of transformer models. These contributions required considerable effort and researcher intuition, which makes it difficult to apply the same methods to understand the complex behavior that current models display. At their core however, the workflow for these discoveries is surprisingly similar. Researchers create a data set and metric that elicit the desired model behavior, subdivide the network into appropriate abstract units, replace activations of those units to identify which are involved in the behavior, and then interpret the functions that these units implement. By varying the data set, metric, and units under investigation, researchers can understand the functionality of each neural network region and the circuits they compose. This work proposes a novel algorithm, Automatic Circuit DisCovery (ACDC), to automate the identification of the important units in the network. Given a model’s computational graph, ACDC finds subgraphs that explain a behavior of the model. ACDC was able to reproduce a previously identified circuit for Python docstrings in a small transformer, identifying 6/7 important attention heads that compose up to 3 layers deep, while including 91% fewer the connections.

arxiv情報

著者 Arthur Conmy,Augustine N. Mavor-Parker,Aengus Lynch,Stefan Heimersheim,Adrià Garriga-Alonso
発行日 2023-04-28 17:36:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.LG パーマリンク