要約
機械的解釈可能性は、ニューラル ネットワークの内部計算をリバース エンジニアリングすることで、ニューラル ネットワークの動作を理解することを目的としています。
しかし、現在の手法では、活性化を計算上の特徴に分解することが欠落しているため、ニューラル ネットワークの活性化の明確な解釈を見つけるのに苦労しています。
個々のニューロンやモデル コンポーネントは、明確に異なる特徴や機能に対応しているわけではありません。
我々は、ネットワークのアクティベーションを新しい基盤であるローカル インタラクション ベース (LIB) に変換することで、この制限を克服することを目的とした、新しい解釈可能性の方法を提案します。
LIB は、無関係なアクティベーションと相互作用を削除することで計算上の特徴を特定することを目的としています。
私たちの方法は、無関係な活性化方向を削除し、基底を隣接する層間のヤコビ行列の特異ベクトルに合わせます。
また、下流の計算における重要性に基づいて機能をスケーリングし、モデル内の計算に関連するすべての機能と相互作用を示す相互作用グラフを生成します。
私たちは、モジュラー加算モデルと CIFAR-10 モデルに対する LIB の有効性を評価し、主成分分析と比較して、より疎らに相互作用する、より計算に関連した特徴を識別することがわかりました。
ただし、LIB を言語モデルに適用しても、解釈可能性や対話のスパース性は大幅に向上しません。
私たちは、LIB はニューラル ネットワークを分析するための理論主導のアプローチとして有望であると結論付けていますが、現在の形式では大規模な言語モデルには適用できません。
要約(オリジナル)
Mechanistic interpretability aims to understand the behavior of neural networks by reverse-engineering their internal computations. However, current methods struggle to find clear interpretations of neural network activations because a decomposition of activations into computational features is missing. Individual neurons or model components do not cleanly correspond to distinct features or functions. We present a novel interpretability method that aims to overcome this limitation by transforming the activations of the network into a new basis – the Local Interaction Basis (LIB). LIB aims to identify computational features by removing irrelevant activations and interactions. Our method drops irrelevant activation directions and aligns the basis with the singular vectors of the Jacobian matrix between adjacent layers. It also scales features based on their importance for downstream computation, producing an interaction graph that shows all computationally-relevant features and interactions in a model. We evaluate the effectiveness of LIB on modular addition and CIFAR-10 models, finding that it identifies more computationally-relevant features that interact more sparsely, compared to principal component analysis. However, LIB does not yield substantial improvements in interpretability or interaction sparsity when applied to language models. We conclude that LIB is a promising theory-driven approach for analyzing neural networks, but in its current form is not applicable to large language models.
arxiv情報
著者 | Lucius Bushnaq,Stefan Heimersheim Nicholas Goldowsky-Dill,Dan Braun,Jake Mendel,Kaarel Hänni,Avery Griffin,Jörn Stöhler,Magdalena Wache,Marius Hobbhahn |
発行日 | 2024-05-17 17:27:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google