要約
データセットの評価問題、つまり、個々のデータセットを他のデータセットに集約するという、機械学習タスクの関連する事前定義されたユーティリティに対する増分ゲインを定量化する問題を検討します。
Shapley 値は、形式的な公理的正当化によりデータセットの評価を実行するための自然なツールであり、モンテカルロ統合と組み合わせて計算の扱いやすさの課題を克服できます。
ただし、このような一般的な近似方法は、場合によっては依然として高価です。
この論文では、データセット評価問題の構造に関する知識を活用して、より効率的な Shapley 値推定器を考案します。
我々は、離散一様分布と呼ばれる新しい近似を提案します。これは、適切なサイズをサポートする離散一様分布の下での期待値として表現されます。
我々は、漸近的および非漸近的な理論的保証を通じて提案されたフレームワークの関連性を正当化し、広範な一連の数値実験を通じてその利点を説明します。
要約(オリジナル)
We consider the dataset valuation problem, that is, the problem of quantifying the incremental gain, to some relevant pre-defined utility of a machine learning task, of aggregating an individual dataset to others. The Shapley value is a natural tool to perform dataset valuation due to its formal axiomatic justification, which can be combined with Monte Carlo integration to overcome the computational tractability challenges. Such generic approximation methods, however, remain expensive in some cases. In this paper, we exploit the knowledge about the structure of the dataset valuation problem to devise more efficient Shapley value estimators. We propose a novel approximation, referred to as discrete uniform Shapley, which is expressed as an expectation under a discrete uniform distribution with support of reasonable size. We justify the relevancy of the proposed framework via asymptotic and non-asymptotic theoretical guarantees and illustrate its benefits via an extensive set of numerical experiments.
arxiv情報
著者 | Felipe Garrido-Lucero,Benjamin Heymann,Maxime Vono,Patrick Loiseau,Vianney Perchet |
発行日 | 2024-11-04 14:52:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google