要約
機械的解釈は、(畳み込み)ニューラルネットワーク(CNN)の個々のコンポーネントの分析と、決定メカニズムを表すより大きな回路をどのように形成するかに関係しています。
CNNは、異なる概念をエンコードするポリマンティックチャネルを頻繁に学習し、解釈を難しくしているため、これらの調査は困難です。
これに対処するために、特定の種類のポリマンティックチャネルを複数のチャネルに解くアルゴリズムを提案し、それぞれが単一の概念に応答します。
私たちのアプローチは、同じチャネル内の異なる概念を使用して、前のレイヤーに異なるアクティベーションパターンを示すことを利用して、CNNの重みを再構築します。
これらのポリマンティックの特徴を解き放つことにより、CNNの解釈可能性を高め、最終的に機能の視覚化などの説明技術を改善します。
要約(オリジナル)
Mechanistic interpretability is concerned with analyzing individual components in a (convolutional) neural network (CNN) and how they form larger circuits representing decision mechanisms. These investigations are challenging since CNNs frequently learn polysemantic channels that encode distinct concepts, making them hard to interpret. To address this, we propose an algorithm to disentangle a specific kind of polysemantic channel into multiple channels, each responding to a single concept. Our approach restructures weights in a CNN, utilizing that different concepts within the same channel exhibit distinct activation patterns in the previous layer. By disentangling these polysemantic features, we enhance the interpretability of CNNs, ultimately improving explanatory techniques such as feature visualizations.
arxiv情報
著者 | Robin Hesse,Jonas Fischer,Simone Schaub-Meyer,Stefan Roth |
発行日 | 2025-04-17 13:37:47+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google