EcoVal: An Efficient Data Valuation Framework for Machine Learning

要約

機械学習ワークフロー内のデータの価値を定量化することは、機械学習の取り組みにおいてより戦略的な意思決定を行う上で極めて重要な役割を果たすことができます。
機械学習におけるデータ評価のための既存の Shapley 値ベースのフレームワークは、Shapley 値を取得するためにかなりの量のモデルの繰り返しトレーニングを必要とするため、計算コストが高くなります。
このペーパーでは、機械学習モデルのデータの価値を迅速かつ実用的な方法で推定するための効率的なデータ評価フレームワーク EcoVal を紹介します。
個々のデータ サンプルを直接操作する代わりに、類似したデータ ポイントのクラスターの値を決定します。
この値は、すべてのメンバー クラスター ポイント間でさらに伝播されます。
全体的なデータ値は、各データの固有値と外部値を推定することによって決定できることを示します。
これは、モデルのパフォーマンスを \textit{生産関数} として定式化することによって可能になります。この概念は、伝統的な自由経済市場において労働や資本などの要素に基づいて生産量を推定するためによく使用されます。
私たちは評価手法の正式な証明を提供し、そのパフォーマンスの加速を可能にする原理とメカニズムを解明します。
分布内データとサンプル外データの両方に対するその有効性を示すことで、この方法が実際に適用できることを実証します。
この取り組みは、機械学習モデルにおける大規模な効率的なデータ評価という中心的な課題の 1 つに対処します。

要約(オリジナル)

Quantifying the value of data within a machine learning workflow can play a pivotal role in making more strategic decisions in machine learning initiatives. The existing Shapley value based frameworks for data valuation in machine learning are computationally expensive as they require considerable amount of repeated training of the model to obtain the Shapley value. In this paper, we introduce an efficient data valuation framework EcoVal, to estimate the value of data for machine learning models in a fast and practical manner. Instead of directly working with individual data sample, we determine the value of a cluster of similar data points. This value is further propagated amongst all the member cluster points. We show that the overall data value can be determined by estimating the intrinsic and extrinsic value of each data. This is enabled by formulating the performance of a model as a \textit{production function}, a concept which is popularly used to estimate the amount of output based on factors like labor and capital in a traditional free economic market. We provide a formal proof of our valuation technique and elucidate the principles and mechanisms that enable its accelerated performance. We demonstrate the real-world applicability of our method by showcasing its effectiveness for both in-distribution and out-of-sample data. This work addresses one of the core challenges of efficient data valuation at scale in machine learning models.

arxiv情報

著者 Ayush K Tarun,Vikram S Chundawat,Murari Mandal,Hong Ming Tan,Bowei Chen,Mohan Kankanhalli
発行日 2024-02-15 16:30:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク