Statistically Valid Variable Importance Assessment through Conditional Permutations

要約

可変重要度評価は、大規模データに対してディープ ニューラル ネットワークなどの複雑な学習器を使用する場合の機械学習アプリケーションにおける重要なステップとなっています。
除去ベースの重要度評価は、現在、特に変数の包含を正当化するために統計的保証が求められる場合に参照されるアプローチです。
多くの場合、変数置換スキームを使用して実装されます。
逆に言えば、これらのアプローチは、共変量間の相関関係が存在する場合、重要ではない変数を重要なものとして誤認する危険性があります。
ここでは、モデルに依存せず計算効率の高い、条件付き置換重要度 (CPI) を研究するための体系的なアプローチと、最先端の変数重要度推定器の再利用可能なベンチマークを開発します。
$\textit{CPI}$ が正確なタイプ I エラー制御を提供することにより、標準的な順列の重要性の制限を克服することを理論的および経験的に示します。
ディープ ニューラル ネットワークで使用すると、$\textit{CPI}$ は複数のベンチマークにわたって一貫して最高の精度を示しました。
大規模な医療データセットにおける現実世界のデータ分析に関する経験的ベンチマークでは、$\textit{CPI}$ が統計的に重要な変数をより倹約的に選択することが示されました。
私たちの結果は、$\textit{CPI}$ が順列ベースのメソッドのドロップイン置換として簡単に使用できることを示唆しています。

要約(オリジナル)

Variable importance assessment has become a crucial step in machine-learning applications when using complex learners, such as deep neural networks, on large-scale data. Removal-based importance assessment is currently the reference approach, particularly when statistical guarantees are sought to justify variable inclusion. It is often implemented with variable permutation schemes. On the flip side, these approaches risk misidentifying unimportant variables as important in the presence of correlations among covariates. Here we develop a systematic approach for studying Conditional Permutation Importance (CPI) that is model agnostic and computationally lean, as well as reusable benchmarks of state-of-the-art variable importance estimators. We show theoretically and empirically that $\textit{CPI}$ overcomes the limitations of standard permutation importance by providing accurate type-I error control. When used with a deep neural network, $\textit{CPI}$ consistently showed top accuracy across benchmarks. An empirical benchmark on real-world data analysis in a large-scale medical dataset showed that $\textit{CPI}$ provides a more parsimonious selection of statistically significant variables. Our results suggest that $\textit{CPI}$ can be readily used as drop-in replacement for permutation-based methods.

arxiv情報

著者 Ahmad Chamma,Denis A. Engemann,Bertrand Thirion
発行日 2023-09-14 10:53:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML パーマリンク