Marginal and Conditional Importance Measures from Machine Learning Models and Their Relationship with Conditional Average Treatment Effect

要約

ブラックボックスの機械学習モデルの解釈は、データと本質的にノンパラメトリックな性質への強い依存のために挑戦的です。
このペーパーでは、真の条件付き期待関数に基づいた予測因子の重要性のモデルと存在する尺度である「限界変数の重要性メトリック」(MVIM)を通じて重要性の概念を再導入します。
MVIMは、継続的または離散的な結果に対する予測因子の影響を評価します。
\ citet {breiman2001random}および\ citet {fisher2019all}に触発された順列ベースの推定アプローチは、MVIMを推定するために提案されています。
Black-Boxモデルが低財産領域での外挿に苦労しているため、MVIM推定器は、予測子が非常に相関している場合に偏っています。
これに対処するために、MVIMのバイアス分散分解を調査して、高い相関の下でのバイアスのソースとパターンを理解しました。
\ citet {strobl2008Conditional}から適合した条件付き変数の重要性メトリック(CVIM)が導入され、このバイアスを減らします。
MVIMとCVIMの両方が、条件付き平均治療効果(CATE)と二次関係を示します。

要約(オリジナル)

Interpreting black-box machine learning models is challenging due to their strong dependence on data and inherently non-parametric nature. This paper reintroduces the concept of importance through ‘Marginal Variable Importance Metric’ (MVIM), a model-agnostic measure of predictor importance based on the true conditional expectation function. MVIM evaluates predictors’ influence on continuous or discrete outcomes. A permutation-based estimation approach, inspired by \citet{breiman2001random} and \citet{fisher2019all}, is proposed to estimate MVIM. MVIM estimator is biased when predictors are highly correlated, as black-box models struggle to extrapolate in low-probability regions. To address this, we investigated the bias-variance decomposition of MVIM to understand the source and pattern of the bias under high correlation. A Conditional Variable Importance Metric (CVIM), adapted from \citet{strobl2008conditional}, is introduced to reduce this bias. Both MVIM and CVIM exhibit a quadratic relationship with the conditional average treatment effect (CATE).

arxiv情報

著者 Mohammad Kaviul Anam Khan,Olli Saarela,Rafal Kustra
発行日 2025-01-29 02:03:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク