要約
拡散モデルは現実世界の設定に展開され、そのパフォーマンスはトレーニング データによって左右されるため、データ貢献者の貢献を評価することは、高品質のデータを共有するためのインセンティブを生み出し、データ補償のポリシーを実装するために非常に重要です。
ユースケースに応じて、モデルのパフォーマンスは、拡散モデルによって学習された分布のさまざまなグローバル プロパティ (全体的な美的品質など) に対応します。
したがって、ここでは拡散モデルのグローバルな特性をデータ貢献者に帰属するという問題に取り組みます。
Shapley 値は、ゲーム理論の公平性の公理を独自に満たすことにより、評価に対する原則的なアプローチを提供します。
ただし、拡散モデルの Shapley 値を推定することは、さまざまな寄与者に対応する多くのトレーニング データ サブセットでの再トレーニングと推論の再実行が必要なため、計算的に非現実的です。
モデルの枝刈りと微調整を活用して、Shapley 値推定のための推論を効率的に再トレーニングおよび再実行する方法を紹介します。
私たちは、次の 3 つの使用例でこの方法の有用性を評価します。(i) CIFAR データセットでトレーニングされた DDPM の画質、(ii) CelebA-HQ でトレーニングされた LDM の人口統計的多様性、および (iii) 安定拡散の美的品質
ポスト印象派の芸術作品に基づいて LoRA で微調整されたモデル。
私たちの結果は、私たちのフレームワークがモデルのグローバルプロパティ全体にわたって重要なデータ寄与者を特定でき、拡散モデルの既存のアトリビューション手法を上回るパフォーマンスを発揮できることを経験的に示しています。
要約(オリジナル)
As diffusion models are deployed in real-world settings, and their performance is driven by training data, appraising the contribution of data contributors is crucial to creating incentives for sharing quality data and to implementing policies for data compensation. Depending on the use case, model performance corresponds to various global properties of the distribution learned by a diffusion model (e.g., overall aesthetic quality). Hence, here we address the problem of attributing global properties of diffusion models to data contributors. The Shapley value provides a principled approach to valuation by uniquely satisfying game-theoretic axioms of fairness. However, estimating Shapley values for diffusion models is computationally impractical because it requires retraining on many training data subsets corresponding to different contributors and rerunning inference. We introduce a method to efficiently retrain and rerun inference for Shapley value estimation, by leveraging model pruning and fine-tuning. We evaluate the utility of our method with three use cases: (i) image quality for a DDPM trained on a CIFAR dataset, (ii) demographic diversity for an LDM trained on CelebA-HQ, and (iii) aesthetic quality for a Stable Diffusion model LoRA-finetuned on Post-Impressionist artworks. Our results empirically demonstrate that our framework can identify important data contributors across models’ global properties, outperforming existing attribution methods for diffusion models.
arxiv情報
著者 | Chris Lin,Mingyu Lu,Chanwoo Kim,Su-In Lee |
発行日 | 2025-01-22 18:21:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google