Neural Dynamic Data Valuation

要約

データは、データエコノミーとその市場の基礎的な要素を構成します。
効率的かつ公正なデータ評価は、大きな関心を集めているトピックとして浮上しています。\ 限界寄与に基づく多くのアプローチは、さまざまな下流タスクで有望な結果を示しています。
ただし、特定の目的での特定のデータセットの有用性や価値を評価するために使用される多数の効用関数のトレーニングが必要なため、計算コストがかかることはよく知られています。
その結果、これらの手法を大規模なデータセットが関与するデータ マーケットプレイスに適用するのは不可能であると認識されています。
その結果、重要な問題が生じます。それは、効用関数の再学習をどのようにして回避できるかということです。
この問題に対処するために、我々は最適制御の観点から新しいデータ評価手法を提案し、それをNeural Dynamic Data Valuation (NDDV)と名付けます。
私たちの方法には、データの最適な制御状態の感度を通じてデータの評価を正確に特定するための確かな理論的解釈があります。
さらに、データ ポイントの固有の特徴を捕捉するデータ再重み付け戦略を実装し、データ ポイントと平均場の状態の間の相互作用を通じて公平性を確保します。
特に、私たちの方法では、すべてのデータ ポイントの値を推定するのに 1 回のトレーニングしか必要とせず、計算効率が大幅に向上します。
私たちは、さまざまなデータセットとタスクを使用して包括的な実験を実施します。
この結果は、提案された NDDV 手法が、高い値または低い値を持つデータ ポイントを正確に識別する点で既存の最先端のデータ評価手法を上回っており、計算効率が高いことを示しています。

要約(オリジナル)

Data constitute the foundational component of the data economy and its marketplaces. Efficient and fair data valuation has emerged as a topic of significant interest.\ Many approaches based on marginal contribution have shown promising results in various downstream tasks. However, they are well known to be computationally expensive as they require training a large number of utility functions, which are used to evaluate the usefulness or value of a given dataset for a specific purpose. As a result, it has been recognized as infeasible to apply these methods to a data marketplace involving large-scale datasets. Consequently, a critical issue arises: how can the re-training of the utility function be avoided? To address this issue, we propose a novel data valuation method from the perspective of optimal control, named the neural dynamic data valuation (NDDV). Our method has solid theoretical interpretations to accurately identify the data valuation via the sensitivity of the data optimal control state. In addition, we implement a data re-weighting strategy to capture the unique features of data points, ensuring fairness through the interaction between data points and the mean-field states. Notably, our method requires only training once to estimate the value of all data points, significantly improving the computational efficiency. We conduct comprehensive experiments using different datasets and tasks. The results demonstrate that the proposed NDDV method outperforms the existing state-of-the-art data valuation methods in accurately identifying data points with either high or low values and is more computationally efficient.

arxiv情報

著者 Zhangyong Liang,Huanhuan Gao,Ji Zhang
発行日 2024-04-30 13:39:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク