A Unified Framework for Provably Efficient Algorithms to Estimate Shapley Values

要約

Shapleyの値は、機械学習モデルによって行われる決定にどの機能に影響を与えるかを説明するための重要なツールとして浮上しています。
ただし、正確なShapley値を計算することは困難であり、通常、モデル評価の数の(特徴的なディメンション)数が必要です。
これに対処するために、多くのモデルに依存しないランダム化推定器が開発されており、最も影響力があり広く使用されているのはカーネルシェップ法です(Lundberg&Lee、2017)。
偏りのないカーネルシャップ(Covert&Lee、2021)やLeverageshap(Musco&Witter、2025)などの関連推定量は、理論的保証を満たすことが知られていますが、Kernelshapの境界はとらえどころのないままです。
カーネルシャップと、交換サンプリング戦略の有無にかかわらず構築された関連する推定器を含む広範で統一されたフレームワークについて説明します。
次に、私たちのフレームワークからのすべての推定器に適用される強力な非アサイクティック理論的保証を証明します。
これは、私たちの知る限り、kernelshapの最初の理論的保証と、既存の推定器間のトレードオフにさらに光を当てることを提供します。
意思決定ツリーモデルの小型および中寸法データセットの包括的なベンチマークを通じて、正確なShapley値に対してアプローチを検証し、控えめなサンプルサイズで低平均2乗エラーを一貫して達成します。
さらに、高次元データセットに対するメソッドのスケーラビリティを可能にするために、特定の実装の改善を行います。
MnistやCIFAR10などのデータセットでテストされたメソッドは、Kernelshapライブラリと比較して、一貫してより良い結果を提供します。

要約(オリジナル)

Shapley values have emerged as a critical tool for explaining which features impact the decisions made by machine learning models. However, computing exact Shapley values is difficult, generally requiring an exponential (in the feature dimension) number of model evaluations. To address this, many model-agnostic randomized estimators have been developed, the most influential and widely used being the KernelSHAP method (Lundberg & Lee, 2017). While related estimators such as unbiased KernelSHAP (Covert & Lee, 2021) and LeverageSHAP (Musco & Witter, 2025) are known to satisfy theoretical guarantees, bounds for KernelSHAP have remained elusive. We describe a broad and unified framework that encompasses KernelSHAP and related estimators constructed using both with and without replacement sampling strategies. We then prove strong non-asymptotic theoretical guarantees that apply to all estimators from our framework. This provides, to the best of our knowledge, the first theoretical guarantees for KernelSHAP and sheds further light on tradeoffs between existing estimators. Through comprehensive benchmarking on small and medium dimensional datasets for Decision-Tree models, we validate our approach against exact Shapley values, consistently achieving low mean squared error with modest sample sizes. Furthermore, we make specific implementation improvements to enable scalability of our methods to high-dimensional datasets. Our methods, tested on datasets such MNIST and CIFAR10, provide consistently better results compared to the KernelSHAP library.

arxiv情報

著者 Tyler Chen,Akshay Seshadri,Mattia J. Villani,Pradeep Niroula,Shouvanik Chakrabarti,Archan Ray,Pranav Deshpande,Romina Yalovetzky,Marco Pistoia,Niraj Kumar
発行日 2025-06-05 16:30:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DS, cs.LG, quant-ph パーマリンク