Data-OOB: Out-of-bag Estimate as a Simple and Efficient Data Value


タイトル: Data-OOB:シンプルかつ効率的なデータバリューとしてのOut-of-bag推定
– データバリューは、どのデータがモデルトレーニングに適しているかどうかの統計的洞察を提供する強力なフレームワークである。
– 多くのShapleyベースのデータバリューメソッドが、さまざまな下流タスクで有望な結果を示しているが、大量のモデルをトレーニングする必要があるため、計算上の課題がある。
– この問題を解決するために、新しいデータバリューメソッドのData-OOBを提案し、バギングモデルに対して採用オブバッグ見積りを利用する。
– 提案された方法は計算上効率的で、トレーニングされた弱い学習者を再利用することによって数百万のデータにスケールアップできる。
– Data-OOBは、同じ重要なデータポイントを識別する理論的な解釈を持つとともに、2つの異なるポイントを比較した場合に微小なジャックナイフ影響関数と同じ重要なデータポイントを識別する。
– 12の分類データセットで包括的な実験を実施し、提案された方法が間違ってラベル付けされたデータを特定し、有用な(または有害な)データポイントのセットを見つける点で既存の最先端のデータバリューメソッドを明らかに超えることを証明した。


Data valuation is a powerful framework for providing statistical insights into which data are beneficial or detrimental to model training. Many Shapley-based data valuation methods have shown promising results in various downstream tasks, however, they are well known to be computationally challenging as it requires training a large number of models. As a result, it has been recognized as infeasible to apply to large datasets. To address this issue, we propose Data-OOB, a new data valuation method for a bagging model that utilizes the out-of-bag estimate. The proposed method is computationally efficient and can scale to millions of data by reusing trained weak learners. Specifically, Data-OOB takes less than 2.25 hours on a single CPU processor when there are $10^6$ samples to evaluate and the input dimension is 100. Furthermore, Data-OOB has solid theoretical interpretations in that it identifies the same important data point as the infinitesimal jackknife influence function when two different points are compared. We conduct comprehensive experiments using 12 classification datasets, each with thousands of sample sizes. We demonstrate that the proposed method significantly outperforms existing state-of-the-art data valuation methods in identifying mislabeled data and finding a set of helpful (or harmful) data points, highlighting the potential for applying data values in real-world applications.


著者 Yongchan Kwon,James Zou
発行日 2023-04-28 04:10:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, OpenAI

カテゴリー: cs.LG, stat.ML パーマリンク