Have Faith in Faithfulness: Going Beyond Circuit Overlap When Finding Model Mechanisms

要約

最近の言語モデル (LM) の解釈可能性に関する研究の多くは、特定のタスクでの LM の動作を説明する最小の計算サブグラフ、つまり回路を見つけることを目的とした回路フレームワークを採用しています。
ほとんどの研究では、各エッジに因果的介入を個別に実行することによって、どのエッジが LM 回路に属するかを決定しますが、これはモデルのサイズに合わせて調整することができません。
介入に対する勾配ベースの近似であるエッジ アトリビューション パッチング (EAP) は、この問題に対するスケーラブルではあるが不完全な解決策として登場しました。
このペーパーでは、回路の中核特性である忠実性をより適切に維持することを目的とした新しい方法である統合勾配を使用した EAP (EAP-IG) を紹介します。
タスクにおけるモデルのパフォーマンスを変えることなく、回路の外側のすべてのモデル エッジをアブレーションできる場合、回路は忠実です。
完全なモデルではなく、忠実であることが回路の研究を正当化するものです。
私たちの実験では、EAP を使用して見つかった回路は、EAP-IG を使用して見つかった回路よりも忠実度が低いことを示しています。ただし、どちらも、以前に因果的介入を使用して見つかった回路とノードの重複が高くなります。
より一般的には、回路を使用してモデルがタスクを解決するために使用するメカニズムを比較する場合、測定すべきは重複ではなく忠実性であると結論付けます。

要約(オリジナル)

Many recent language model (LM) interpretability studies have adopted the circuits framework, which aims to find the minimal computational subgraph, or circuit, that explains LM behavior on a given task. Most studies determine which edges belong in a LM’s circuit by performing causal interventions on each edge independently, but this scales poorly with model size. Edge attribution patching (EAP), gradient-based approximation to interventions, has emerged as a scalable but imperfect solution to this problem. In this paper, we introduce a new method – EAP with integrated gradients (EAP-IG) – that aims to better maintain a core property of circuits: faithfulness. A circuit is faithful if all model edges outside the circuit can be ablated without changing the model’s performance on the task; faithfulness is what justifies studying circuits, rather than the full model. Our experiments demonstrate that circuits found using EAP are less faithful than those found using EAP-IG, even though both have high node overlap with circuits found previously using causal interventions. We conclude more generally that when using circuits to compare the mechanisms models use to solve tasks, faithfulness, not overlap, is what should be measured.

arxiv情報

著者 Michael Hanna,Sandro Pezzelle,Yonatan Belinkov
発行日 2024-07-15 12:07:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, I.2.7 パーマリンク