要約
生成された画像に最も影響を与えるトレーニング データ サンプルを特定することは、拡散モデルを理解する上で重要なタスクですが、既存の影響推定手法は、計算上の制限により小規模モデルまたは LoRA 調整モデルに制約されます。
拡散モデルがスケールアップするにつれて、これらの方法は非現実的になります。
この課題に対処するために、生成された特定の画像に対する各トレーニング データ サンプルの影響を推定するためのスケーラブルなフレームワークである DMin (拡散モデル影響) を提案します。
効率的な勾配圧縮および取得技術を活用することで、DMin はストレージ要件を 339.39 TB からわずか 726 MB に削減し、パフォーマンスを維持しながら、最も影響力のある上位から K 個のトレーニング サンプルを 1 秒未満で取得します。
私たちの経験的結果は、DMin が影響力のあるトレーニング サンプルを特定するのに効果的であり、計算要件とストレージ要件の点でも効率的であることを示しています。
要約(オリジナル)
Identifying the training data samples that most influence a generated image is a critical task in understanding diffusion models, yet existing influence estimation methods are constrained to small-scale or LoRA-tuned models due to computational limitations. As diffusion models scale up, these methods become impractical. To address this challenge, we propose DMin (Diffusion Model influence), a scalable framework for estimating the influence of each training data sample on a given generated image. By leveraging efficient gradient compression and retrieval techniques, DMin reduces storage requirements from 339.39 TB to only 726 MB and retrieves the top-k most influential training samples in under 1 second, all while maintaining performance. Our empirical results demonstrate DMin is both effective in identifying influential training samples and efficient in terms of computational and storage requirements.
arxiv情報
| 著者 | Huawei Lin,Yingjie Lao,Weijie Zhao |
| 発行日 | 2024-12-11 18:58:40+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google