Is This the Subspace You Are Looking for? An Interpretability Illusion for Subspace Activation Patching

要約

機構的解釈可能性は、特定の解釈可能な特徴の観点からモデルの動作を理解することを目的とし、多くの場合、活性化の低次元部分空間として現れると仮説が立てられます。
具体的には、最近の研究では、モデルの動作を操作し、その背後にある特徴を特定の部分空間に帰属させることを同時に行う方法として、部分空間介入 (アクティベーション パッチなど) が検討されています。
この研究では、これら 2 つの目的が分岐し、解釈可能性の錯覚につながる可能性があることを示します。
直観に反しますが、部分空間の介入によってモデルの出力が特徴の値が変更されたかのように動作する場合でも、この効果は、モデルの出力から因果的に切り離されている別の部分空間を利用して休止中の並列経路を活性化することによって達成される可能性があります。
私たちはこの現象を、現実世界の 2 つの領域 (間接的な物体識別タスクと事実の想起) における蒸留された数学的な例で実証し、実際にその現象が蔓延している証拠を示します。
事実想起の文脈では、ランク 1 の事実編集へのリンクをさらに示し、事実編集のパフォーマンスと事実の位置特定の間の矛盾を観察する以前の研究のメカニズムの説明を提供します。
ただし、これは、部分空間の活性化パッチが本質的に解釈可能性に適していないことを意味するものではありません。
私たちの調査結果を状況に合わせて説明するために、事前の手動回路解析によって特徴の位置を理解できるタスク (間接的なオブジェクト識別) での成功例がどのようなものであるかを示します。
パッチを当てた部分空間が忠実であると主張するために必要な追加の証拠を調査します。

要約(オリジナル)

Mechanistic interpretability aims to understand model behaviors in terms of specific, interpretable features, often hypothesized to manifest as low-dimensional subspaces of activations. Specifically, recent studies have explored subspace interventions (such as activation patching) as a way to simultaneously manipulate model behavior and attribute the features behind it to given subspaces. In this work, we demonstrate that these two aims diverge, potentially leading to an illusory sense of interpretability. Counterintuitively, even if a subspace intervention makes the model’s output behave as if the value of a feature was changed, this effect may be achieved by activating a dormant parallel pathway leveraging another subspace that is causally disconnected from model outputs. We demonstrate this phenomenon in a distilled mathematical example, in two real-world domains (the indirect object identification task and factual recall), and present evidence for its prevalence in practice. In the context of factual recall, we further show a link to rank-1 fact editing, providing a mechanistic explanation for previous work observing an inconsistency between fact editing performance and fact localization. However, this does not imply that activation patching of subspaces is intrinsically unfit for interpretability. To contextualize our findings, we also show what a success case looks like in a task (indirect object identification) where prior manual circuit analysis informs an understanding of the location of a feature. We explore the additional evidence needed to argue that a patched subspace is faithful.

arxiv情報

著者 Aleksandar Makelov,Georg Lange,Neel Nanda
発行日 2023-11-28 18:32:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク