A Note on ‘Efficient Task-Specific Data Valuation for Nearest Neighbor Algorithms’

要約

タイトル:最近傍アルゴリズムにおける効率的なタスク専用データ評価に関するノート
要約:
・データ評価は、機械学習(ML)モデルの個々のデータ点の影響を研究する成長分野である。
・データShapleyは、協力ゲーム理論と経済学に着想を得た、データ評価の効果的な手法である。
・しかし、Shapley値(SV)が計算上重要な場合があることは周知の事実である。
・幸いにも、Jiaら(2019)は、K最近傍(KNN)モデルにおいて、Data Shapleyの計算が驚くほど簡単で効率的であることを示した。
・本研究では、Jiaら(2019)の研究を改めて検討し、KNNモデルのパフォーマンスを反映するより自然で解釈可能なユーティリティ関数を提案する。
・この新しいユーティリティ関数に対応するData Shapleyの計算手順を導き出す。
・新しいアプローチであるSoft-label KNN-SVは、元の方法と同じ時間計算量を実現する。
・さらに、ローカリティセンシティブハッシュ(LSH)に基づく効率的な近似アルゴリズムを提供する。
・実験結果から、Soft-label KNN-SVは、誤ラベル付けされたデータの検出タスクにおいて、ほとんどのデータセットにおいて元の方法よりも優れており、今後のデータ評価のベースラインとしてより良いものとなる。

要約(オリジナル)

Data valuation is a growing research field that studies the influence of individual data points for machine learning (ML) models. Data Shapley, inspired by cooperative game theory and economics, is an effective method for data valuation. However, it is well-known that the Shapley value (SV) can be computationally expensive. Fortunately, Jia et al. (2019) showed that for K-Nearest Neighbors (KNN) models, the computation of Data Shapley is surprisingly simple and efficient. In this note, we revisit the work of Jia et al. (2019) and propose a more natural and interpretable utility function that better reflects the performance of KNN models. We derive the corresponding calculation procedure for the Data Shapley of KNN classifiers/regressors with the new utility functions. Our new approach, dubbed soft-label KNN-SV, achieves the same time complexity as the original method. We further provide an efficient approximation algorithm for soft-label KNN-SV based on locality sensitive hashing (LSH). Our experimental results demonstrate that Soft-label KNN-SV outperforms the original method on most datasets in the task of mislabeled data detection, making it a better baseline for future work on data valuation.

arxiv情報

著者 Jiachen T. Wang,Ruoxi Jia
発行日 2023-04-09 15:31:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.LG, stat.ML パーマリンク