Evaluating the Robustness of Interpretability Methods through Explanation Invariance and Equivariance

要約

解釈可能性手法は、その説明が説明されたモデルを忠実に記述する場合にのみ価値がある。本研究では、特定の対称群の下で予測値が不変であるニューラルネットワークを検討する。これには、畳み込みニューラルネットワークからグラフニューラルネットワークに至るまで、一般的なアーキテクチャが含まれる。この種のモデルを忠実に説明する説明は、この不変性特性と一致する必要がある。我々は、幾何学的深層学習からの形式論を活用し、説明不変性と等価性の概念を通じてこの直観を形式化する。この厳密な形式論を通じて、我々は、(1)モデルの対称群に関する任意の解釈可能性手法の頑健性を測定する2つのメトリクス、(2)いくつかの一般的な解釈可能性手法の理論的頑健性保証、(3)対称群に関する任意の解釈可能性手法の不変性を高める系統的アプローチを導き出す。様々なモダリティと対称性グループに関連するモデルの説明に対する我々の測定基準を経験的に測定することにより、解釈可能性手法のユーザと開発者が頑健な説明を作成するための5つのガイドラインを導出する。

要約(オリジナル)

Interpretability methods are valuable only if their explanations faithfully describe the explained model. In this work, we consider neural networks whose predictions are invariant under a specific symmetry group. This includes popular architectures, ranging from convolutional to graph neural networks. Any explanation that faithfully explains this type of model needs to be in agreement with this invariance property. We formalize this intuition through the notion of explanation invariance and equivariance by leveraging the formalism from geometric deep learning. Through this rigorous formalism, we derive (1) two metrics to measure the robustness of any interpretability method with respect to the model symmetry group; (2) theoretical robustness guarantees for some popular interpretability methods and (3) a systematic approach to increase the invariance of any interpretability method with respect to a symmetry group. By empirically measuring our metrics for explanations of models associated with various modalities and symmetry groups, we derive a set of 5 guidelines to allow users and developers of interpretability methods to produce robust explanations.

arxiv情報

著者 Jonathan Crabbé,Mihaela van der Schaar
発行日 2023-05-12 17:59:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CG, cs.LG パーマリンク