Causal Analysis for Robust Interpretability of Neural Networks

要約

ニューラル ネットワークの内部機能を解釈することは、これらのブラック ボックス モデルの信頼できる開発と展開にとって重要です。
従来の解釈可能性手法は、モデルの決定を個々の例に帰すための相関ベースの尺度に焦点を当てていました。
ただし、これらの測定値は、トレーニング段階でモデル内にエンコードされたノイズや偽の相関の影響を受けやすくなります (バイアスされた入力、モデルの過剰適合、仕様の誤りなど)。
さらに、このプロセスにより、ノイズが多く不安定な属性が生成され、モデルの動作の透過的な理解を妨げることが判明しています。
この論文では、事前に訓練されたニューラル ネットワークの因果メカニズムとその予測との関係を捕捉するための、因果分析に基づいた堅牢な介入ベースの手法を開発します。
私たちの新しいアプローチは、パス介入に依存して、隠れ層内の因果メカニズムを推論し、(モデル予測に)関連する必要な情報を分離し、ノイズの多い情報を回避します。
その結果、モデルの動作を監査し、そのパフォーマンスの根底にある実際の原因を表現できる、タスク固有の因果関係を説明するグラフが作成されます。
私たちは、分類タスクでトレーニングされた視覚モデルにこの方法を適用します。
画像分類タスクに関しては、私たちのアプローチが標準的な属性ベースの方法よりも安定して忠実な説明を取得できることを示すために、広範な定量的実験を提供します。
さらに、基礎となる因果グラフはモデル内の神経相互作用を明らかにし、他のアプリケーション (モデル修復など) で貴重なツールになります。

要約(オリジナル)

Interpreting the inner function of neural networks is crucial for the trustworthy development and deployment of these black-box models. Prior interpretability methods focus on correlation-based measures to attribute model decisions to individual examples. However, these measures are susceptible to noise and spurious correlations encoded in the model during the training phase (e.g., biased inputs, model overfitting, or misspecification). Moreover, this process has proven to result in noisy and unstable attributions that prevent any transparent understanding of the model’s behavior. In this paper, we develop a robust interventional-based method grounded by causal analysis to capture cause-effect mechanisms in pre-trained neural networks and their relation to the prediction. Our novel approach relies on path interventions to infer the causal mechanisms within hidden layers and isolate relevant and necessary information (to model prediction), avoiding noisy ones. The result is task-specific causal explanatory graphs that can audit model behavior and express the actual causes underlying its performance. We apply our method to vision models trained on classification tasks. On image classification tasks, we provide extensive quantitative experiments to show that our approach can capture more stable and faithful explanations than standard attribution-based methods. Furthermore, the underlying causal graphs reveal the neural interactions in the model, making it a valuable tool in other applications (e.g., model repair).

arxiv情報

著者 Ola Ahmad,Nicolas Bereux,Loïc Baret,Vahid Hashemi,Freddy Lecue
発行日 2023-06-20 15:43:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ME パーマリンク