Localizing Model Behavior with Path Patching

要約

【タイトル】
パスパッチングによるモデルの振る舞いの局所化

【要約】
ニューラルネットワークの振る舞いをネットワークのコンポーネントのサブセット(部分集合)またはコンポーネント間の相互作用のサブセットに局所化することは、ネットワークのメカニズムと可能な故障モードを分析するための自然な第一歩です。既存の研究はしばしば質的かつアドホックであり、局所化主張を評価する適切な方法について合意がありません。パスパッチングという、パスのセットに振る舞いが局所化されているという自然な仮説を表現し、量的にテストするための技術を導入します。私たちは導入から誘導ヘッドの説明を改良し、GPT-2の振る舞いを特徴付け、同様の実験を効率的に実施するためのフレームワークをオープンソース化します。

【要点】
– ニューラルネットワークの振る舞いを局所化することは、故障の原因を分析する手法の一つである。
– 既存の研究は質的かつアドホックであり、評価方法にも合意がない。
– パスパッチングという仮説を表現し、量的にテストするための技術を導入する。
– 導入から誘導ヘッドの説明を改良する。
– GPT-2の振る舞いを特徴付ける。
– 同様の実験を効率的に実施するためのフレームワークをオープンソース化する。

要約(オリジナル)

Localizing behaviors of neural networks to a subset of the network’s components or a subset of interactions between components is a natural first step towards analyzing network mechanisms and possible failure modes. Existing work is often qualitative and ad-hoc, and there is no consensus on the appropriate way to evaluate localization claims. We introduce path patching, a technique for expressing and quantitatively testing a natural class of hypotheses expressing that behaviors are localized to a set of paths. We refine an explanation of induction heads, characterize a behavior of GPT-2, and open source a framework for efficiently running similar experiments.

arxiv情報

著者 Nicholas Goldowsky-Dill,Chris MacLeod,Lucas Sato,Aryaman Arora
発行日 2023-04-12 16:46:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.LG パーマリンク