要約
機械的解釈は、実装する高レベルのアルゴリズムを明らかにすることにより、ニューラルネットワークをリバースエンジニアリングすることを目的としています。
因果抽象化は、ネットワークがアルゴリズムを実装するときの正確な概念を提供します。つまり、ネットワークの因果モデルには、アルゴリズムの因果モデルの高レベルの変数を実現する低レベルの機能が含まれています。
実際の設定における典型的な問題は、アルゴリズムがネットワークの完全に忠実な抽象化ではないことです。つまり、モデルの真の推論プロセスを部分的にキャプチャすることです。
さまざまな単純な高レベルモデルを組み合わせて、ネットワークのより忠実な表現を生成するソリューションを提案します。
この組み合わせを学習することで、ニューラルネットワークを、提供された入力に応じて異なる計算状態にあるようにモデル化できます。
解釈可能性仮説の強さのトレードオフを観察します。これは、高レベルモデルによって説明される入力の数と、交換介入の精度として定義する忠実さの数とその忠実さの観点から見られます。
私たちの方法により、2つの間で変調することができ、忠実なレベルを与えられたニューラルネットワークの動作を説明するモデルの最も正確な組み合わせを提供します。
要約(オリジナル)
Mechanistic interpretability aims to reverse engineer neural networks by uncovering which high-level algorithms they implement. Causal abstraction provides a precise notion of when a network implements an algorithm, i.e., a causal model of the network contains low-level features that realize the high-level variables in a causal model of the algorithm. A typical problem in practical settings is that the algorithm is not an entirely faithful abstraction of the network, meaning it only partially captures the true reasoning process of a model. We propose a solution where we combine different simple high-level models to produce a more faithful representation of the network. Through learning this combination, we can model neural networks as being in different computational states depending on the input provided, which we show is more accurate to GPT 2-small fine-tuned on two toy tasks. We observe a trade-off between the strength of an interpretability hypothesis, which we define in terms of the number of inputs explained by the high-level models, and its faithfulness, which we define as the interchange intervention accuracy. Our method allows us to modulate between the two, providing the most accurate combination of models that describe the behavior of a neural network given a faithfulness level.
arxiv情報
著者 | Theodora-Mara Pîslar,Sara Magliacane,Atticus Geiger |
発行日 | 2025-03-14 14:14:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google