Matching-based Data Valuation for Generative Model


– 機械学習におけるデータ価値評価は重要であり、モデルの透明性向上とデータプロパティの保護に役立つ。
– 従来のデータ価値評価方法は、差別モデルに主に焦点を当てており、最近注目されている深層生成モデルを無視していた。
– 深層生成モデルの場合もデータ貢献を評価する必要があり、従来の手法は差別モデルのパフォーマンスメトリックに依存し、モデルの再学習が必要であり、最新の深層生成モデルには直接的かつ効率的に適用できない。
– このギャップを埋めるために、我々は類似性マッチングの観点から、生成モデルのデータ価値評価問題を定式化する。
– 具体的には、私たちはGMValuatorを導入し、生成タスクのために設計された、どの生成モデルにも適用できる最初のモデル非依存アプローチである。
– 提案手法の効果を実証するために、広範な実験を行った。
– GMValuatorは、深層生成モデルに対するトレーニング不要のポストホックデータ評価戦略を提供する最初の手法である。


Data valuation is critical in machine learning, as it helps enhance model transparency and protect data properties. Existing data valuation methods have primarily focused on discriminative models, neglecting deep generative models that have recently gained considerable attention. Similar to discriminative models, there is an urgent need to assess data contributions in deep generative models as well. However, previous data valuation approaches mainly relied on discriminative model performance metrics and required model retraining. Consequently, they cannot be applied directly and efficiently to recent deep generative models, such as generative adversarial networks and diffusion models, in practice. To bridge this gap, we formulate the data valuation problem in generative models from a similarity-matching perspective. Specifically, we introduce Generative Model Valuator (GMValuator), the first model-agnostic approach for any generative models, designed to provide data valuation for generation tasks. We have conducted extensive experiments to demonstrate the effectiveness of the proposed method. To the best of their knowledge, GMValuator is the first work that offers a training-free, post-hoc data valuation strategy for deep generative models.


著者 Jiaxi Yang,Wenglong Deng,Benlin Liu,Yangsibo Huang,Xiaoxiao Li
発行日 2023-04-21 02:02:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, OpenAI

カテゴリー: cs.CV, cs.LG パーマリンク