要約
説明可能な機械学習の大きな分野は、協力ゲーム理論に基づいています。
しかし、研究によると、ゲーム理論的な説明は誤解を招く可能性があり、解釈が難しい可能性があります。
私たちは、説明したい内容 (分類器の出力など) と、SHAP などの現在の手法が説明する内容 (クラスのスカラー確率など) の間には、重大な不一致が存在することが多いと主張します。
この論文では、協力ゲームと値演算子を一般化することで、確率モデルのこのようなギャップに対処します。
分布値、モデル出力の変化 (予測クラスの反転など) を追跡する確率変数を導入し、ガウス、ベルヌーイ、カテゴリカル ペイオフを使用したゲームの分析式を導き出します。
さらに、いくつかの特徴的な特性を確立し、視覚モデルと言語モデルに関するケーススタディを用いて、私たちのフレームワークがきめ細かく洞察力に富んだ説明を提供することを示します。
要約(オリジナル)
A large branch of explainable machine learning is grounded in cooperative game theory. However, research indicates that game-theoretic explanations may mislead or be hard to interpret. We argue that often there is a critical mismatch between what one wishes to explain (e.g. the output of a classifier) and what current methods such as SHAP explain (e.g. the scalar probability of a class). This paper addresses such gap for probabilistic models by generalising cooperative games and value operators. We introduce the distributional values, random variables that track changes in the model output (e.g. flipping of the predicted class) and derive their analytic expressions for games with Gaussian, Bernoulli and Categorical payoffs. We further establish several characterising properties, and show that our framework provides fine-grained and insightful explanations with case studies on vision and language models.
arxiv情報
著者 | Luca Franceschi,Michele Donini,Cédric Archambeau,Matthias Seeger |
発行日 | 2024-06-14 17:18:11+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google