要約
最新の機械学習モデルはますます大規模なトレーニング データセットに依存していますが、プライバシーが重視されるドメインではデータが制限されることがよくあります。
機密データの差分プライバシー (DP) でトレーニングされた生成モデルは、代わりに合成データへのアクセスを提供し、この課題を回避できます。
私たちは、最近の拡散モデル (DM) の成功を基に、差分プライベート確率降下法 (DP-SGD) を使用してプライバシーを強制する差分プライベート拡散モデル (DPDM) を導入します。
我々は、DPDM の重要な要素であることが判明した DM パラメータ化とサンプリング アルゴリズムを調査し、DM のトレーニングに合わせて調整された DP-SGD の強力な修正であるノイズ多重度を提案します。
私たちは画像生成ベンチマークで新しい DPDM を検証し、すべての実験で最先端のパフォーマンスを達成します。
さらに、標準ベンチマークでは、DPDM で生成された合成データでトレーニングされた分類器は、タスク固有の DP-SGD でトレーニングされた分類器と同等のパフォーマンスを示しますが、これは DP 生成モデルではこれまで実証されていませんでした。
プロジェクト ページとコード: https://nv-tlabs.github.io/DPDM。
要約(オリジナル)
While modern machine learning models rely on increasingly large training datasets, data is often limited in privacy-sensitive domains. Generative models trained with differential privacy (DP) on sensitive data can sidestep this challenge, providing access to synthetic data instead. We build on the recent success of diffusion models (DMs) and introduce Differentially Private Diffusion Models (DPDMs), which enforce privacy using differentially private stochastic gradient descent (DP-SGD). We investigate the DM parameterization and the sampling algorithm, which turn out to be crucial ingredients in DPDMs, and propose noise multiplicity, a powerful modification of DP-SGD tailored to the training of DMs. We validate our novel DPDMs on image generation benchmarks and achieve state-of-the-art performance in all experiments. Moreover, on standard benchmarks, classifiers trained on DPDM-generated synthetic data perform on par with task-specific DP-SGD-trained classifiers, which has not been demonstrated before for DP generative models. Project page and code: https://nv-tlabs.github.io/DPDM.
arxiv情報
著者 | Tim Dockhorn,Tianshi Cao,Arash Vahdat,Karsten Kreis |
発行日 | 2023-12-31 01:24:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google