Finding Transformer Circuits with Edge Pruning

要約

言語モデルの解釈への道は、多くの場合、回路の分析を介して進行します。これは、その動作の特定の側面をキャプチャするモデルのまばらな計算サブグラフです。
最近の作業により、回路を発見するタスクが自動化されています。
しかし、これらの方法には、非効率的な検索アルゴリズムまたは不正確な近似のいずれかに依存するため、これらの方法には実際的な制限があります。
この論文では、自動回路の発見を最適化問題としてフレーム化し、効果的でスケーラブルなソリューションとして *エッジプルニング *を提案します。
エッジプルーニングは、グラデーションベースのプルーニング技術を活用しますが、ニューロンまたはコンポーネントを除去する代わりに、コンポーネント間で\ emphing {エッジ}を剪定します。
私たちの方法では、GPT-2の回路を見つけます。これは、以前の方法で見つかった回路と比較してエッジの数の半分未満を使用し、標準的な回路発見タスクの完全なモデル予測に等しく忠実であることを見つけます。
エッジプルーニングは、最大100,000の例でも効率的であり、以前の方法を速度で上回り、実質的に優れた回路を生成します。
また、TRACRでコンパイルされた2つのモデルの地上回路を完全に回復します。
その効率のおかげで、Edge PruningはCodellama-13Bにスケーリングします。これは、以前の方法が動作するスケールの100倍以上のモデルです。
この設定を使用して、命令プロンプトとコンテキスト内学習の背後にあるメカニズムを比較したケーススタディに使用します。
完全なモデルのパフォーマンスに一致する99.96%以上のスパース性を持つ2つの回路が見つかり、2つの設定のメカニズムが大幅に重複していることがわかります。
私たちのケーススタディは、エッジプルーニングは解釈可能性のための実用的でスケーラブルなツールであり、大きなモデルでのみ出現する動作に光を当てていることを示しています。

要約(オリジナル)

The path to interpreting a language model often proceeds via analysis of circuits — sparse computational subgraphs of the model that capture specific aspects of its behavior. Recent work has automated the task of discovering circuits. Yet, these methods have practical limitations, as they rely either on inefficient search algorithms or inaccurate approximations. In this paper, we frame automated circuit discovery as an optimization problem and propose *Edge Pruning* as an effective and scalable solution. Edge Pruning leverages gradient-based pruning techniques, but instead of removing neurons or components, it prunes the \emph{edges} between components. Our method finds circuits in GPT-2 that use less than half the number of edges compared to circuits found by previous methods while being equally faithful to the full model predictions on standard circuit-finding tasks. Edge Pruning is efficient even with as many as 100K examples, outperforming previous methods in speed and producing substantially better circuits. It also perfectly recovers the ground-truth circuits in two models compiled with Tracr. Thanks to its efficiency, we scale Edge Pruning to CodeLlama-13B, a model over 100x the scale that prior methods operate on. We use this setting for a case study comparing the mechanisms behind instruction prompting and in-context learning. We find two circuits with more than 99.96% sparsity that match the performance of the full model and reveal that the mechanisms in the two settings overlap substantially. Our case study shows that Edge Pruning is a practical and scalable tool for interpretability and sheds light on behaviors that only emerge in large models.

arxiv情報

著者 Adithya Bhaskar,Alexander Wettig,Dan Friedman,Danqi Chen
発行日 2025-04-02 15:50:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク