DMin: Scalable Training Data Influence Estimation for Diffusion Models

要約

生成された画像に最も影響を与えるトレーニング データ サンプルを特定することは、拡散モデルを理解する上で重要なタスクですが、既存の影響推定手法は、計算上の制限により小規模モデルまたは LoRA 調整モデルに制約されます。
拡散モデルがスケールアップするにつれて、これらの方法は非現実的になります。
この課題に対処するために、生成された特定の画像に対する各トレーニング データ サンプルの影響を推定するためのスケーラブルなフレームワークである DMin (拡散モデル影響) を提案します。
効率的な勾配圧縮および取得技術を活用することで、DMin はストレージ要件を 339.39 TB からわずか 726 MB に削減し、パフォーマンスを維持しながら、最も影響力のある上位から K 個のトレーニング サンプルを 1 秒未満で取得します。
私たちの経験的結果は、DMin が影響力のあるトレーニング サンプルを特定するのに効果的であり、計算要件とストレージ要件の点でも効率的であることを示しています。

要約(オリジナル)

Identifying the training data samples that most influence a generated image is a critical task in understanding diffusion models, yet existing influence estimation methods are constrained to small-scale or LoRA-tuned models due to computational limitations. As diffusion models scale up, these methods become impractical. To address this challenge, we propose DMin (Diffusion Model influence), a scalable framework for estimating the influence of each training data sample on a given generated image. By leveraging efficient gradient compression and retrieval techniques, DMin reduces storage requirements from 339.39 TB to only 726 MB and retrieves the top-k most influential training samples in under 1 second, all while maintaining performance. Our empirical results demonstrate DMin is both effective in identifying influential training samples and efficient in terms of computational and storage requirements.

arxiv情報

著者 Huawei Lin,Yingjie Lao,Weijie Zhao
発行日 2024-12-11 18:58:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク