A Guide to Feature Importance Methods for Scientific Inference

要約

機械学習 (ML) モデルは、その高い予測能力によりますます使用されていますが、データ生成プロセス (DGP) の理解におけるその使用は限定されています。
DGP を理解するには、機能とターゲットの関連付けについての洞察が必要ですが、多くの ML モデルは内部メカニズムが不透明であるため、直接提供することができません。
特徴重要度 (FI) メソッドは、特定の条件下で DGP についての有用な洞察を提供します。
異なる FI 手法の結果には異なる解釈があるため、具体的なユースケースに対して正しい FI 手法を選択することが重要であり、依然として専門知識が必要です。
このペーパーは、FI 手法のさまざまな解釈を理解するのに役立つ包括的なガイドとして機能します。
FI 手法を広範にレビューし、その解釈に関する新しい証明を提供することで、これらの手法の徹底的な理解を促進し、科学的推論のための具体的な推奨事項を策定します。
最後に、FI 不確実性推定のオプションについて議論し、ブラックボックス ML モデルからの完全な統計的推論を目的とした将来の研究の方向性を示します。

要約(オリジナル)

While machine learning (ML) models are increasingly used due to their high predictive power, their use in understanding the data-generating process (DGP) is limited. Understanding the DGP requires insights into feature-target associations, which many ML models cannot directly provide, due to their opaque internal mechanisms. Feature importance (FI) methods provide useful insights into the DGP under certain conditions. Since the results of different FI methods have different interpretations, selecting the correct FI method for a concrete use case is crucial and still requires expert knowledge. This paper serves as a comprehensive guide to help understand the different interpretations of FI methods. Through an extensive review of FI methods and providing new proofs regarding their interpretation, we facilitate a thorough understanding of these methods and formulate concrete recommendations for scientific inference. We conclude by discussing options for FI uncertainty estimation and point to directions for future research aiming at full statistical inference from black-box ML models.

arxiv情報

著者 Fiona Katharina Ewald,Ludwig Bothmann,Marvin N. Wright,Bernd Bischl,Giuseppe Casalicchio,Gunnar König
発行日 2024-04-19 13:01:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.ST, stat.ME, stat.ML, stat.TH パーマリンク