On Model Explanations with Transferable Neural Pathways

要約

モデルの説明としてのニューロン経路は、モデル全体と同じレベルの予測パフォーマンスを提供するまばらなニューロンのセットで構成されます。
既存の手法は主に精度と疎性に焦点を当てていますが、生成されたパスウェイの解釈可能性は限られている可能性があり、モデルの動作を説明するには不十分です。
この論文では、神経経路の 2 つの解釈可能性基準を提案します。(i) 同じクラスの神経経路は主にクラス関連ニューロンで構成されている必要があります。
(ii) 各インスタンスの神経経路の疎性は最適に決定される必要があります。
この目的を達成するために、ターゲット モデルの特徴マップから神経経路を予測することを学習する生成クラス関連神経経路 (GEN-CNP) モデルを提案します。
私たちは、同じクラスの神経経路が高い類似性を示すように、深い層と浅い層の特徴からクラスに関連する情報を学習することを提案します。
さらに、インスタンス固有のスパース性を持つパスウェイを生成するために、GEN-CNP に忠実性基準を課します。
我々は、クラスに関連した神経経路を転送して、同じクラスのサンプルを説明し、その忠実性と解釈可能性を実験的および定性的に示すことを提案します。

要約(オリジナル)

Neural pathways as model explanations consist of a sparse set of neurons that provide the same level of prediction performance as the whole model. Existing methods primarily focus on accuracy and sparsity but the generated pathways may offer limited interpretability thus fall short in explaining the model behavior. In this paper, we suggest two interpretability criteria of neural pathways: (i) same-class neural pathways should primarily consist of class-relevant neurons; (ii) each instance’s neural pathway sparsity should be optimally determined. To this end, we propose a Generative Class-relevant Neural Pathway (GEN-CNP) model that learns to predict the neural pathways from the target model’s feature maps. We propose to learn class-relevant information from features of deep and shallow layers such that same-class neural pathways exhibit high similarity. We further impose a faithfulness criterion for GEN-CNP to generate pathways with instance-specific sparsity. We propose to transfer the class-relevant neural pathways to explain samples of the same class and show experimentally and qualitatively their faithfulness and interpretability.

arxiv情報

著者 Xinmiao Lin,Wentao Bao,Qi Yu,Yu Kong
発行日 2023-09-18 15:50:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク