Evaluating the Robustness of Interpretability Methods through Explanation Invariance and Equivariance

要約

解釈可能性メソッドは、その説明が説明されたモデルを忠実に記述している場合にのみ価値があります。
この研究では、特定の対称グループの下で予測が不変であるニューラル ネットワークを検討します。
これには、畳み込みからグラフ ニューラル ネットワークまでの一般的なアーキテクチャが含まれます。
このタイプのモデルを忠実に説明する説明は、この不変性の性質と一致している必要があります。
私たちは、幾何学的な深層学習の形式主義を活用して、説明の不変性と等変性の概念を通じてこの直観を形式化します。
この厳密な形式主義を通じて、(1) モデルの対称性グループに関する解釈可能性手法の堅牢性を測定するための 2 つの指標を導き出します。
(2) いくつかの一般的な解釈可能性手法に対する理論的な堅牢性の保証、および (3) 対称群に関する任意の解釈可能性手法の不変性を高める体系的なアプローチ。
さまざまなモダリティや対称性グループに関連するモデルの説明に関するメトリクスを経験的に測定することで、解釈可能性手法のユーザーと開発者が確実な説明を作成できるようにする 5 つのガイドラインのセットを導き出します。

要約(オリジナル)

Interpretability methods are valuable only if their explanations faithfully describe the explained model. In this work, we consider neural networks whose predictions are invariant under a specific symmetry group. This includes popular architectures, ranging from convolutional to graph neural networks. Any explanation that faithfully explains this type of model needs to be in agreement with this invariance property. We formalize this intuition through the notion of explanation invariance and equivariance by leveraging the formalism from geometric deep learning. Through this rigorous formalism, we derive (1) two metrics to measure the robustness of any interpretability method with respect to the model symmetry group; (2) theoretical robustness guarantees for some popular interpretability methods and (3) a systematic approach to increase the invariance of any interpretability method with respect to a symmetry group. By empirically measuring our metrics for explanations of models associated with various modalities and symmetry groups, we derive a set of 5 guidelines to allow users and developers of interpretability methods to produce robust explanations.

arxiv情報

著者 Jonathan Crabbé,Mihaela van der Schaar
発行日 2023-10-05 15:29:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CG, cs.LG パーマリンク