Accurate estimation of feature importance faithfulness for tree models

要約

本論文では、PGI二乗と呼ぶ、特徴順位(または属性)の予測忠実度を表す摂動ベースの指標を考察する。決定木ベースの回帰モデルに適用すると、この指標は任意の独立な特徴摂動分布に対して正確かつ効率的に計算できる。特に、この計算は、類似のメトリクスの計算に一般的に使用され、本質的に不正確になりやすいモンテカルロ・サンプリングを伴わない。さらに、PGIの2乗に基づき、木モデルの予測に対する重要度によって特徴をランク付けする方法を提案する。我々の実験によれば、いくつかの点で、この方法は最先端のSHAP説明器よりも大域的に重要な特徴を識別できる可能性がある。

要約(オリジナル)

In this paper, we consider a perturbation-based metric of predictive faithfulness of feature rankings (or attributions) that we call PGI squared. When applied to decision tree-based regression models, the metric can be computed accurately and efficiently for arbitrary independent feature perturbation distributions. In particular, the computation does not involve Monte Carlo sampling that has been typically used for computing similar metrics and which is inherently prone to inaccuracies. Moreover, we propose a method of ranking features by their importance for the tree model’s predictions based on PGI squared. Our experiments indicate that in some respects, the method may identify the globally important features better than the state-of-the-art SHAP explainer

arxiv情報

著者 Mateusz Gajewski,Adam Karczmarz,Mateusz Rapicki,Piotr Sankowski
発行日 2024-04-04 13:09:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG パーマリンク