Theoretical Behavior of XAI Methods in the Presence of Suppressor Variables

要約

近年、「説明可能な人工知能」(XAI)のコミュニティでは、モデルの「複雑さ」と「解釈可能性」の間に認識されるギャップを埋めるために、膨大な数の手法が生み出されている。しかし、XAI手法によって解決すべき具体的な問題は、まだ正式に示されていない。その結果、XAI手法は、その説明の「正しさ」に対する理論的・経験的証拠を欠いており、品質管理や透明性を目的とした潜在的な利用を制限しています。同時に、Haufeら(2014)は、単純なおもちゃの例を用いて、線形モデルの標準的な解釈でさえ、非常に誤解を招く可能性があることを示した。具体的には、予測対象との統計的な関係がない、いわゆるサプレッサー変数に高い重要性が帰属する場合がある。この挙動は、Wilming et al. (2022)において、多数のXAIメソッドについて実証的に確認されている。ここでは、さらに一歩進んで、ガウス型クラス条件分布を含む単純な2次元2値分類問題における、様々な一般的なXAI手法の挙動について解析的な式を導出することで、XAI手法の挙動を明らかにする。その結果、相関性のあるノイズが存在する場合、研究された手法の大半は、クラスに関連しない抑制特徴にゼロ以外の重要性を持たせることを示す。このことは、これらのXAI手法の出力が提供できる解釈や結論に重要な制限をもたらす。

要約(オリジナル)

In recent years, the community of ‘explainable artificial intelligence’ (XAI) has created a vast body of methods to bridge a perceived gap between model ‘complexity’ and ‘interpretability’. However, a concrete problem to be solved by XAI methods has not yet been formally stated. As a result, XAI methods are lacking theoretical and empirical evidence for the ‘correctness’ of their explanations, limiting their potential use for quality-control and transparency purposes. At the same time, Haufe et al. (2014) showed, using simple toy examples, that even standard interpretations of linear models can be highly misleading. Specifically, high importance may be attributed to so-called suppressor variables lacking any statistical relation to the prediction target. This behavior has been confirmed empirically for a large array of XAI methods in Wilming et al. (2022). Here, we go one step further by deriving analytical expressions for the behavior of a variety of popular XAI methods on a simple two-dimensional binary classification problem involving Gaussian class-conditional distributions. We show that the majority of the studied approaches will attribute non-zero importance to a non-class-related suppressor feature in the presence of correlated noise. This poses important limitations on the interpretations and conclusions that the outputs of these XAI methods can afford.

arxiv情報

著者 Rick Wilming,Leo Kieslich,Benedict Clark,Stefan Haufe
発行日 2023-06-02 11:41:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG, stat.ML パーマリンク