Attribution Patching Outperforms Automated Circuit Discovery

要約

自動解釈可能性の研究は、ニューラル ネットワークの動作の説明を大規模なモデルに拡張できる可能性のある研究の方向性として最近注目を集めています。
既存の自動回路検出作業では、アクティベーション パッチを適用して、特定のタスク (回路) の解決を担当するサブネットワークを特定します。
この研究では、アトリビューション パッチに基づく単純な方法が、2 つの前方パスと 1 つの後方パスのみを必要とするにもかかわらず、既存のすべての方法よりも優れたパフォーマンスを発揮することを示します。
アクティベーション パッチングに線形近似を適用して、計算サブグラフ内の各エッジの重要性を推定します。
この近似を使用して、ネットワークの最も重要度の低いエッジを削除します。
この方法のパフォーマンスと限界を調査した結果、すべてのタスクを平均すると、この方法の回路回復による AUC が他の方法よりも大きいことがわかりました。

要約(オリジナル)

Automated interpretability research has recently attracted attention as a potential research direction that could scale explanations of neural network behavior to large models. Existing automated circuit discovery work applies activation patching to identify subnetworks responsible for solving specific tasks (circuits). In this work, we show that a simple method based on attribution patching outperforms all existing methods while requiring just two forward passes and a backward pass. We apply a linear approximation to activation patching to estimate the importance of each edge in the computational subgraph. Using this approximation, we prune the least important edges of the network. We survey the performance and limitations of this method, finding that averaged over all tasks our method has greater AUC from circuit recovery than other methods.

arxiv情報

著者 Aaquib Syed,Can Rager,Arthur Conmy
発行日 2023-11-20 11:31:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク