Localizing Model Behavior with Path Patching


ニューラル ネットワークの動作をネットワーク コンポーネントのサブセットまたはコンポーネント間の相互作用のサブセットに局所化することは、ネットワーク メカニズムと考えられる障害モードを分析するための自然な第一歩です。
パス パッチングを導入します。これは、動作が一連のパスに局所化されているという仮説の自然なクラスを表現し、定量的にテストするための手法です。
私たちは誘導ヘッドの説明を改良し、GPT-2 の動作を特徴付け、同様の実験を効率的に実行するためのフレームワークをオープンソースします。


Localizing behaviors of neural networks to a subset of the network’s components or a subset of interactions between components is a natural first step towards analyzing network mechanisms and possible failure modes. Existing work is often qualitative and ad-hoc, and there is no consensus on the appropriate way to evaluate localization claims. We introduce path patching, a technique for expressing and quantitatively testing a natural class of hypotheses expressing that behaviors are localized to a set of paths. We refine an explanation of induction heads, characterize a behavior of GPT-2, and open source a framework for efficiently running similar experiments.


著者 Nicholas Goldowsky-Dill,Chris MacLeod,Lucas Sato,Aryaman Arora
発行日 2023-05-16 16:24:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク