要約
多大な努力にもかかわらず、ニューラルネットワークの解釈可能性は依然としてとらえどころのない目標であり、これまでの研究では、ほとんどの単一ニューロンがネットワーク出力に与える影響について簡潔な説明ができていません。
この制限は、ほとんどのニューロンの多義的な性質によるもので、特定のニューロンが複数の無関係なネットワーク状態に関与し、そのニューロンの解釈が複雑になります。
この論文では、神経科学と情報理論で開発されたツールを適用して、ネットワークの解釈可能性に対する新しい実践的なアプローチと、多意味性とコードの密度に関する理論的洞察の両方を提案します。
アクティベーションの共分散行列の固有スペクトルを検査することで、ネットワーク コードの冗長性のレベルを推測します。
さらに、ランダムな投影によって、ネットワークが滑らかなコードを示すか微分不可能なコードを示すか、したがってコードがどの程度解釈可能であるかを明らかにできることを示します。
この同じフレームワークは、学習パフォーマンスに対する多意味ニューロンの利点を説明し、Elhage et al.~(2022) による最近の結果で見つかった傾向を説明します。
私たちのアプローチは、ニューラル ネットワークの解釈可能性の追求を前進させ、その基礎となる構造についての洞察を提供し、回路レベルの解釈可能性への新しい道を提案します。
要約(オリジナル)
Despite substantial efforts, neural network interpretability remains an elusive goal, with previous research failing to provide succinct explanations of most single neurons’ impact on the network output. This limitation is due to the polysemantic nature of most neurons, whereby a given neuron is involved in multiple unrelated network states, complicating the interpretation of that neuron. In this paper, we apply tools developed in neuroscience and information theory to propose both a novel practical approach to network interpretability and theoretical insights into polysemanticity and the density of codes. We infer levels of redundancy in the network’s code by inspecting the eigenspectrum of the activation’s covariance matrix. Furthermore, we show how random projections can reveal whether a network exhibits a smooth or non-differentiable code and hence how interpretable the code is. This same framework explains the advantages of polysemantic neurons to learning performance and explains trends found in recent results by Elhage et al.~(2022). Our approach advances the pursuit of interpretability in neural networks, providing insights into their underlying structure and suggesting new avenues for circuit-level interpretability.
arxiv情報
著者 | Simon C. Marshall,Jan H. Kirchner |
発行日 | 2024-01-31 16:31:54+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google