Shapley Marginal Surplus for Strong Models

要約

Shapley 値は、モデルの予測を説明し、共変量の重要性を推定する方法として機械学習で広く使用されています。
実際のモデルでは、意思決定を支援し、真のデータ生成プロセス (DGP) の特性を推測するために、モデルを正確に説明することが重要です。
この論文では、モデルベースの Shapley 値はモデル予測を正確に説明できる一方で、機械学習モデル自体は、モデルの精度が高くても DGP を説明するのに不十分であることが多いことを示します。
特に、相互に関連する変数やノイズの多い変数が存在する場合、予測性の高いモデルの出力ではこれらの関係を考慮できない可能性があります。
これは、トレーニングされたモデルの動作の説明では、DGP についての有意義な洞察が得られない可能性があることを意味します。
この論文では、可能性のあるモデルの空間をサンプリングして特徴の重要性の推論的な尺度を算出する、新しい変数重要度アルゴリズム、強力なモデルの Shapley 限界余剰アルゴリズムを紹介します。
この手法を、Shapley ベースおよび非 Shapley ベースの両方の他の一般的な特徴重要度手法と比較し、他の手法と比較して推論機能で大幅に優れたパフォーマンスを実証しました。

要約(オリジナル)

Shapley values have seen widespread use in machine learning as a way to explain model predictions and estimate the importance of covariates. Accurately explaining models is critical in real-world models to both aid in decision making and to infer the properties of the true data-generating process (DGP). In this paper, we demonstrate that while model-based Shapley values might be accurate explainers of model predictions, machine learning models themselves are often poor explainers of the DGP even if the model is highly accurate. Particularly in the presence of interrelated or noisy variables, the output of a highly predictive model may fail to account for these relationships. This implies explanations of a trained model’s behavior may fail to provide meaningful insight into the DGP. In this paper we introduce a novel variable importance algorithm, Shapley Marginal Surplus for Strong Models, that samples the space of possible models to come up with an inferential measure of feature importance. We compare this method to other popular feature importance methods, both Shapley-based and non-Shapley based, and demonstrate significant outperformance in inferential capabilities relative to other methods.

arxiv情報

著者 Daniel de Marchi,Michael Kosorok,Scott de Marchi
発行日 2024-08-16 17:06:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク