Evaluating the Robustness of Interpretability Methods through Explanation Invariance and Equivariance

要約

タイトル:説明の不変性と同値性を通じた解釈可能性手法の堅牢性の評価

要約:

– 解釈可能性の手法は、説明するモデルを正確に表現できる場合にのみ価値がある。
– 特定の対称性グループに関して不変な予測をするニューラルネットワークを考慮することで、この種のモデルを忠実に説明する説明がこの不変性のプロパティと一致している必要がある。
– 幾何ディープラーニングの形式化を活用して、「説明不変性と同値性」という概念を通じてこの感覚を形式化する。
– 堅牢性の評価メトリック2つを導出し、人気のある解釈可能性手法に対する理論的な堅牢性の保証、対称性グループに対する解釈可能性手法の堅牢性を増加させるための体系的なアプローチ(3)を導出する。
– 異なるモダリティと対称性グループに関連するモデルの説明のメトリックを定量的に測定し、ユーザーと開発者が堅牢な説明を生成するための5つのガイドラインを導出する。

要約(オリジナル)

Interpretability methods are valuable only if their explanations faithfully describe the explained model. In this work, we consider neural networks whose predictions are invariant under a specific symmetry group. This includes popular architectures, ranging from convolutional to graph neural networks. Any explanation that faithfully explains this type of model needs to be in agreement with this invariance property. We formalize this intuition through the notion of explanation invariance and equivariance by leveraging the formalism from geometric deep learning. Through this rigorous formalism, we derive (1) two metrics to measure the robustness of any interpretability method with respect to the model symmetry group; (2) theoretical robustness guarantees for some popular interpretability methods and (3) a systematic approach to increase the invariance of any interpretability method with respect to a symmetry group. By empirically measuring our metrics for explanations of models associated with various modalities and symmetry groups, we derive a set of 5 guidelines to allow users and developers of interpretability methods to produce robust explanations.

arxiv情報

著者 Jonathan Crabbé,Mihaela van der Schaar
発行日 2023-04-13 17:59:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CG, cs.LG パーマリンク