要約
従来、データ評価 (DV) は、学習アルゴリズムの検証パフォーマンスをトレーニング データ間で公平に分割するという問題として提起されてきました。
その結果、計算されたデータ値は、基礎となる学習アルゴリズムの多くの設計上の選択に依存します。
ただし、この依存関係は、データ取得プロセスでさまざまなデータ ソースに対して優先順位を設定したり、データ マーケットプレイスで価格設定メカニズムを通知したりするなど、多くの DV ユースケースにとって望ましくないものです。
これらのシナリオでは、実際の分析の前にデータを評価する必要がありますが、その時点では学習アルゴリズムの選択はまだ決まっていません。
依存関係のもう 1 つの副作用は、個々のポイントの値を評価するには、ポイントを使用した場合と使用しない場合で学習アルゴリズムを再実行する必要があり、大きな計算負荷がかかることです。
この研究は、下流の学習アルゴリズムを意識しない方法でトレーニング データを評価できる新しいフレームワークを導入することにより、データ評価方法の現在の限界を飛び越えます。
主な成果は以下の通りです。
(1) トレーニング セットと検証セットの間の非従来型のクラスごとの Wasserstein 距離に基づいて、トレーニング セットに関連付けられた検証パフォーマンスのプロキシを開発します。
距離が、特定のリプシッツ条件下での任意のモデルの検証パフォーマンスの上限を特徴付けることを示します。
(2) クラスごとのワッサーシュタイン距離の感度分析に基づいて、個々のデータを評価するための新しい方法を開発します。
重要なのは、これらの値は、距離を計算するときに、既製の最適化ソルバーの出力から無料で直接取得できることです。
(3) 低品質データの検出に関連するさまざまなユースケースで新しいデータ評価フレームワークを評価し、驚くべきことに、フレームワークの学習に依存しない機能により、桁違いに高速でありながら、SOTA のパフォーマンスを大幅に向上させることができることを示します。
要約(オリジナル)
Traditionally, data valuation (DV) is posed as a problem of equitably splitting the validation performance of a learning algorithm among the training data. As a result, the calculated data values depend on many design choices of the underlying learning algorithm. However, this dependence is undesirable for many DV use cases, such as setting priorities over different data sources in a data acquisition process and informing pricing mechanisms in a data marketplace. In these scenarios, data needs to be valued before the actual analysis and the choice of the learning algorithm is still undetermined then. Another side-effect of the dependence is that to assess the value of individual points, one needs to re-run the learning algorithm with and without a point, which incurs a large computation burden. This work leapfrogs over the current limits of data valuation methods by introducing a new framework that can value training data in a way that is oblivious to the downstream learning algorithm. Our main results are as follows. (1) We develop a proxy for the validation performance associated with a training set based on a non-conventional class-wise Wasserstein distance between training and validation sets. We show that the distance characterizes the upper bound of the validation performance for any given model under certain Lipschitz conditions. (2) We develop a novel method to value individual data based on the sensitivity analysis of the class-wise Wasserstein distance. Importantly, these values can be directly obtained for free from the output of off-the-shelf optimization solvers when computing the distance. (3) We evaluate our new data valuation framework over various use cases related to detecting low-quality data and show that, surprisingly, the learning-agnostic feature of our framework enables a significant improvement over SOTA performance while being orders of magnitude faster.
arxiv情報
著者 | Hoang Anh Just,Feiyang Kang,Jiachen T. Wang,Yi Zeng,Myeongseob Ko,Ming Jin,Ruoxi Jia |
発行日 | 2023-12-07 18:27:33+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google