A Note on ‘Efficient Task-Specific Data Valuation for Nearest Neighbor Algorithms’


・幸いにも、Jiaら(2019)は、K最近傍(KNN)モデルにおいて、Data Shapleyの計算が驚くほど簡単で効率的であることを示した。
・この新しいユーティリティ関数に対応するData Shapleyの計算手順を導き出す。
・新しいアプローチであるSoft-label KNN-SVは、元の方法と同じ時間計算量を実現する。
・実験結果から、Soft-label KNN-SVは、誤ラベル付けされたデータの検出タスクにおいて、ほとんどのデータセットにおいて元の方法よりも優れており、今後のデータ評価のベースラインとしてより良いものとなる。


Data valuation is a growing research field that studies the influence of individual data points for machine learning (ML) models. Data Shapley, inspired by cooperative game theory and economics, is an effective method for data valuation. However, it is well-known that the Shapley value (SV) can be computationally expensive. Fortunately, Jia et al. (2019) showed that for K-Nearest Neighbors (KNN) models, the computation of Data Shapley is surprisingly simple and efficient. In this note, we revisit the work of Jia et al. (2019) and propose a more natural and interpretable utility function that better reflects the performance of KNN models. We derive the corresponding calculation procedure for the Data Shapley of KNN classifiers/regressors with the new utility functions. Our new approach, dubbed soft-label KNN-SV, achieves the same time complexity as the original method. We further provide an efficient approximation algorithm for soft-label KNN-SV based on locality sensitive hashing (LSH). Our experimental results demonstrate that Soft-label KNN-SV outperforms the original method on most datasets in the task of mislabeled data detection, making it a better baseline for future work on data valuation.


著者 Jiachen T. Wang,Ruoxi Jia
発行日 2023-04-09 15:31:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.LG, stat.ML パーマリンク