要約
我々は、機械学習モデルの説明可能性の問題を、摂動検定を通じて特徴の重要性を評価する特徴帰属法(FAM)に焦点を当てて調査する。その有用性にもかかわらず、摂動後の予測変化が類似している場合、FAMは異なる特徴の寄与を区別するのに苦労する。FAMの識別力を強化するために、我々はFANS(Feature Attribution with Necessity and Sufficiency)を導入する。FANSは、近傍領域内の摂動サンプルが予測値の変化の原因として高いPNS(Probability of Being Necessity and Sufficiency)を持つような入力の近傍領域を見つけ、このPNSを特徴量の重要度として使用する。具体的には、FANSは近傍を推定するための発見的戦略と、反事実推論のための2つの段階(事実と介入)を含む摂動テストによって、このPNSを計算する。反事実的サンプルを生成するために、観測されたサンプルに対してリサンプリングに基づくアプローチを用いて、必要な条件分布を近似する。我々は、FANSが6つのベンチマークで既存の帰属法を上回ることを実証する。FANSのソースコードはこちらをご覧ください。
要約(オリジナル)
We investigate the problem of explainability for machine learning models, focusing on Feature Attribution Methods (FAMs) that evaluate feature importance through perturbation tests. Despite their utility, FAMs struggle to distinguish the contributions of different features, when their prediction changes are similar after perturbation. To enhance FAMs’ discriminative power, we introduce Feature Attribution with Necessity and Sufficiency (FANS), which find a neighborhood of the input such that perturbing samples within this neighborhood have a high Probability of being Necessity and Sufficiency (PNS) cause for the change in predictions, and use this PNS as the importance of the feature. Specifically, FANS compute this PNS via a heuristic strategy for estimating the neighborhood and a perturbation test involving two stages (factual and interventional) for counterfactual reasoning. To generate counterfactual samples, we use a resampling-based approach on the observed samples to approximate the required conditional distribution. We demonstrate that FANS outperforms existing attribution methods on six benchmarks. Please refer to the source code via \url{https://github.com/DMIRLAB-Group/FANS}.
arxiv情報
著者 | Xuexin Chen,Ruichu Cai,Zhengting Huang,Yuxuan Zhu,Julien Horwood,Zhifeng Hao,Zijian Li,Jose Miguel Hernandez-Lobato |
発行日 | 2024-06-03 16:29:05+00:00 |
arxivサイト | arxiv_id(pdf) |