Feature Attribution with Necessity and Sufficiency via Dual-stage Perturbation Test for Causal Explanation

要約

私たちは、摂動テストを通じて特徴の重要性を評価する特徴帰属手法 (FAM) に焦点を当てて、機械学習モデルの説明可能性の問題を調査します。
FAM は、その有用性にもかかわらず、摂動後の予測変化が類似している場合、さまざまな特徴の寄与を区別するのに苦労します。
FAM の識別力を強化するために、必要性と十分性を備えた特徴属性 (FANS) を導入します。これは、この近傍内の摂動サンプルが必要性と十分性 (PNS) の変化の原因である可能性が高いように、入力の近傍を見つけます。
予測を行い、この PNS を特徴の重要度として使用します。
具体的には、FANS は、近傍を推定するためのヒューリスティック戦略と、反事実推論のための 2 段階 (事実と介入) を含む摂動テストを介して、この PNS を計算します。
反事実サンプルを生成するには、観察されたサンプルに対してリサンプリング ベースのアプローチを使用して、必要な条件付き分布を近似します。
FANS が 6 つのベンチマークで既存のアトリビューション手法よりも優れていることを実証します。
\url{https://github.com/DMIRLAB-Group/FANS} からソース コードを参照してください。

要約(オリジナル)

We investigate the problem of explainability for machine learning models, focusing on Feature Attribution Methods (FAMs) that evaluate feature importance through perturbation tests. Despite their utility, FAMs struggle to distinguish the contributions of different features, when their prediction changes are similar after perturbation. To enhance FAMs’ discriminative power, we introduce Feature Attribution with Necessity and Sufficiency (FANS), which find a neighborhood of the input such that perturbing samples within this neighborhood have a high Probability of being Necessity and Sufficiency (PNS) cause for the change in predictions, and use this PNS as the importance of the feature. Specifically, FANS compute this PNS via a heuristic strategy for estimating the neighborhood and a perturbation test involving two stages (factual and interventional) for counterfactual reasoning. To generate counterfactual samples, we use a resampling-based approach on the observed samples to approximate the required conditional distribution. We demonstrate that FANS outperforms existing attribution methods on six benchmarks. Please refer to the source code via \url{https://github.com/DMIRLAB-Group/FANS}.

arxiv情報

著者 Xuexin Chen,Ruichu Cai,Zhengting Huang,Yuxuan Zhu,Julien Horwood,Zhifeng Hao,Zijian Li,Jose Miguel Hernandez-Lobato
発行日 2024-06-04 05:15:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ME パーマリンク