Shapley Value on Probabilistic Classifiers

要約

データの経済的価値により、データ評価はデータサイエンスにおけるますます重要な分野となっています。
機械学習 (ML) のコンテキストでは、データ評価方法は、ML モデルの有用性に対する各データ ポイントの寄与を公平に測定することを目的としています。
一般的な方法の 1 つは Shapley 値です。これは、ML モデルにとって有益または有害なデータ ポイントを特定するのに役立ちます。
ただし、従来の Shapley ベースのデータ評価方法では、確率的分類器にとって有益なトレーニング データ ポイントと有害なトレーニング データ ポイントを効果的に区別できない場合があります。
この論文では、従来の Shapley 値の 2 値化された予測結果ではなく、確率的分類器の予測クラス確率を利用する確率的効用関数を構築することにより、Probabilistic Shapley (P-Shapley) 値を提案します。
また、確率的分類器に対する各データ ポイントの限界寄与を効果的に定量化するための信頼度調整用のいくつかの活性化関数も提供しています。
4 つの現実世界のデータセットに対する広範な実験により、ユーザビリティが高く信頼できる ML モデルを構築するためのデータの重要性を評価する際に、私たちが提案した P-Shapley 値の有効性が実証されました。

要約(オリジナル)

Data valuation has become an increasingly significant discipline in data science due to the economic value of data. In the context of machine learning (ML), data valuation methods aim to equitably measure the contribution of each data point to the utility of an ML model. One prevalent method is Shapley value, which helps identify data points that are beneficial or detrimental to an ML model. However, traditional Shapley-based data valuation methods may not effectively distinguish between beneficial and detrimental training data points for probabilistic classifiers. In this paper, we propose Probabilistic Shapley (P-Shapley) value by constructing a probability-wise utility function that leverages the predicted class probabilities of probabilistic classifiers rather than binarized prediction results in the traditional Shapley value. We also offer several activation functions for confidence calibration to effectively quantify the marginal contribution of each data point to the probabilistic classifiers. Extensive experiments on four real-world datasets demonstrate the effectiveness of our proposed P-Shapley value in evaluating the importance of data for building a high-usability and trustworthy ML model.

arxiv情報

著者 Xiang Li,Haocheng Xia,Jinfei Liu
発行日 2023-06-12 15:09:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DB, cs.LG パーマリンク