Right for the Wrong Reason: Can Interpretable ML Techniques Detect Spurious Correlations?

要約

ディープ ニューラル ネットワーク モデルは比類のない分類パフォーマンスを提供しますが、データ内の誤った相関を学習する傾向があります。
テスト データがトレーニング データと同じ分布に由来する場合、パフォーマンス メトリクスを使用して交絡情報へのこのような依存関係を検出するのは困難になる可能性があります。
事後説明や本質的に解釈可能な分類子などの解釈可能な ML メソッドは、欠陥のあるモデル推論を特定することを約束します。
ただし、これらの手法の多くが実際にそれを実行できるかどうかについては、さまざまな証拠があります。
この論文では、擬似相関を正しく識別する説明手法の能力を評価するための厳密な評価戦略を提案します。
この戦略を使用して、胸部 X 線診断タスクにおいて人為的に追加された 3 種類の交絡因子を検出する能力について、5 つの事後説明手法と 1 つの本質的に解釈可能な手法を評価します。
ポストホック手法の SHAP と本質的に解釈可能な Attri-Net が最高のパフォーマンスを提供し、問題のあるモデルの動作を確実に特定するために使用できることがわかりました。

要約(オリジナル)

While deep neural network models offer unmatched classification performance, they are prone to learning spurious correlations in the data. Such dependencies on confounding information can be difficult to detect using performance metrics if the test data comes from the same distribution as the training data. Interpretable ML methods such as post-hoc explanations or inherently interpretable classifiers promise to identify faulty model reasoning. However, there is mixed evidence whether many of these techniques are actually able to do so. In this paper, we propose a rigorous evaluation strategy to assess an explanation technique’s ability to correctly identify spurious correlations. Using this strategy, we evaluate five post-hoc explanation techniques and one inherently interpretable method for their ability to detect three types of artificially added confounders in a chest x-ray diagnosis task. We find that the post-hoc technique SHAP, as well as the inherently interpretable Attri-Net provide the best performance and can be used to reliably identify faulty model behavior.

arxiv情報

著者 Susu Sun,Lisa M. Koch,Christian F. Baumgartner
発行日 2023-08-08 14:52:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク