A Comparative Study of Methods for Estimating Conditional Shapley Values and When to Use Them

要約

Shapley 値は協調ゲーム理論に由来しますが、現在では、複雑な機械学習モデルによって行われる予測を説明するためのモデルに依存しない説明フレームワークとして、産業界や学術界で広く使用されています。
Shapley 値の説明のさまざまなバージョンを計算するには、いくつかのアルゴリズムのアプローチがあります。
ここでは、表形式のデータに適合した予測モデルの条件付きシャプレー値に焦点を当てます。
正確な条件付きシャプレー値を推定することは、自明ではない条件付き期待値の推定を必要とするため困難です。
この記事では、新しいメソッドを開発し、以前に提案されたアプローチを拡張し、新しく改良された既存のメソッドを比較と評価のためにさまざまなメソッド クラスに体系化します。
メソッド クラスは、モンテカルロ積分または回帰のいずれかを使用して、条件付き期待値をモデル化します。
私たちは広範なシミュレーション研究を実施して、さまざまなメソッド クラスが条件付きの期待値をどの程度正確に推定し、それによってさまざまな設定に対して条件付きのシャプレー値を推定するかを評価します。
また、これらのメソッドをいくつかの実世界のデータ実験に適用し、さまざまなメソッド クラスとアプローチをいつ使用するかについての推奨事項も提供します。
大まかに言えば、データ分布をほぼ正確に指定できる場合は、パラメトリック手法を使用することをお勧めします。これは、パラメトリック手法により一般に最も正確なシャプレー値の説明が得られるためです。
分布が不明な場合は、生成手法と、基礎となる予測モデルと同様の形式を持つ回帰モデルの両方が優れた安定したオプションとなります。
回帰ベースの手法はトレーニングに時間がかかることが多いですが、トレーニング後はすぐに Shapley 値の説明を生成します。
モンテカルロベースの手法ではその逆が当てはまり、さまざまな手法がさまざまな実際の状況に適したものになります。

要約(オリジナル)

Shapley values originated in cooperative game theory but are extensively used today as a model-agnostic explanation framework to explain predictions made by complex machine learning models in the industry and academia. There are several algorithmic approaches for computing different versions of Shapley value explanations. Here, we focus on conditional Shapley values for predictive models fitted to tabular data. Estimating precise conditional Shapley values is difficult as they require the estimation of non-trivial conditional expectations. In this article, we develop new methods, extend earlier proposed approaches, and systematize the new refined and existing methods into different method classes for comparison and evaluation. The method classes use either Monte Carlo integration or regression to model the conditional expectations. We conduct extensive simulation studies to evaluate how precisely the different method classes estimate the conditional expectations, and thereby the conditional Shapley values, for different setups. We also apply the methods to several real-world data experiments and provide recommendations for when to use the different method classes and approaches. Roughly speaking, we recommend using parametric methods when we can specify the data distribution almost correctly, as they generally produce the most accurate Shapley value explanations. When the distribution is unknown, both generative methods and regression models with a similar form as the underlying predictive model are good and stable options. Regression-based methods are often slow to train but produce the Shapley value explanations quickly once trained. The vice versa is true for Monte Carlo-based methods, making the different methods appropriate in different practical situations.

arxiv情報

著者 Lars Henry Berge Olsen,Ingrid Kristine Glad,Martin Jullum,Kjersti Aas
発行日 2023-05-16 15:27:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.CO, stat.ML パーマリンク