PURE: Turning Polysemantic Neurons Into Pure Features by Identifying Relevant Circuits

要約

機械的解釈可能性の分野は、ディープ ニューラル ネットワークにおける個々のニューロンの役割を研究することを目的としています。
ただし、単一のニューロンは多意味的に動作し、複数の (関連性のない) 特徴をエンコードする機能を備えているため、解釈が困難になります。
我々は、多意味ニューロンを複数の単一意味の「仮想」ニューロンに分解することによって、ディープ ニューラル ネットワークの多意味性を解きほぐす方法を提案します。
これは、「純粋な」機能ごとに関連するサブグラフ (「回路」) を識別することによって実現されます。
私たちのアプローチにより、ImageNet でトレーニングされた ResNet モデルのさまざまな多意味単位を見つけて解きほぐすことがどのように可能になるかを示します。
CLIP を使用して特徴の視覚化を評価する際、私たちの方法は表現を効果的に解きほぐし、ニューロンの活性化に基づく方法を改善します。
私たちのコードは https://github.com/maxdreyer/PURE で入手できます。

要約(オリジナル)

The field of mechanistic interpretability aims to study the role of individual neurons in Deep Neural Networks. Single neurons, however, have the capability to act polysemantically and encode for multiple (unrelated) features, which renders their interpretation difficult. We present a method for disentangling polysemanticity of any Deep Neural Network by decomposing a polysemantic neuron into multiple monosemantic ‘virtual’ neurons. This is achieved by identifying the relevant sub-graph (‘circuit’) for each ‘pure’ feature. We demonstrate how our approach allows us to find and disentangle various polysemantic units of ResNet models trained on ImageNet. While evaluating feature visualizations using CLIP, our method effectively disentangles representations, improving upon methods based on neuron activations. Our code is available at https://github.com/maxdreyer/PURE.

arxiv情報

著者 Maximilian Dreyer,Erblina Purelku,Johanna Vielhaben,Wojciech Samek,Sebastian Lapuschkin
発行日 2024-04-09 16:54:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク