On the limits of neural network explainability via descrambling

要約

学習済みニューラルネットワークの全結合層を説明するための数学的モデルであるニューラルネットワークデスクランブリングの厳密解を特徴付ける。この問題を、グラフマッチングと複雑性理論で生じるブロケット関数の最小化に再定式化することで、隠れ層の事前活性化の主成分が、層重みの最適な説明子またはデスクランブラーとして特徴付けられ、デスクランブルされた重み行列につながることを示す。我々は、典型的なディープラーニングの文脈において、これらのデスクランブラが、(1)等方的な隠れデータに対するフーリエ基底の最低周波数モードと最大主成分のマッチング、(2)信号回復問題に対する2層線形NNの意味展開の発見、(3)ニューロンの最適な並べ替えによるCNNの説明など、多様で興味深い形をとることを示す。我々の数値実験は、隠れ層データの固有値分解(現在ではデスクランブラとして理解されている)が、その層の基礎となる変換も明らかにできることを示している。これらの結果は、SVDが従来考えられていたよりも直接的にNNの説明可能性に関係していることを示しており、特にオペレータ学習や物理情報NNのような、入出力データが人間の可読性に制限のある文脈において、NNの隠れ動作の解釈可能なモチーフを発見するための有望な手段を提供している。

要約(オリジナル)

We characterize the exact solutions to neural network descrambling–a mathematical model for explaining the fully connected layers of trained neural networks (NNs). By reformulating the problem to the minimization of the Brockett function arising in graph matching and complexity theory we show that the principal components of the hidden layer preactivations can be characterized as the optimal explainers or descramblers for the layer weights, leading to descrambled weight matrices. We show that in typical deep learning contexts these descramblers take diverse and interesting forms including (1) matching largest principal components with the lowest frequency modes of the Fourier basis for isotropic hidden data, (2) discovering the semantic development in two-layer linear NNs for signal recovery problems, and (3) explaining CNNs by optimally permuting the neurons. Our numerical experiments indicate that the eigendecompositions of the hidden layer data–now understood as the descramblers–can also reveal the layer’s underlying transformation. These results illustrate that the SVD is more directly related to the explainability of NNs than previously thought and offers a promising avenue for discovering interpretable motifs for the hidden action of NNs, especially in contexts of operator learning or physics-informed NNs, where the input/output data has limited human readability.

arxiv情報

著者 Shashank Sule,Richard G. Spencer,Wojciech Czaja
発行日 2024-09-02 21:17:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, cs.NA, eess.SP, math.NA パーマリンク