Differentially Private Diffusion Models Generate Useful Synthetic Images

要約

機密性の高い画像データセットのプライバシーを保護する合成バージョンを生成する機能は、現在データの可用性によって制約されている多数の ML アプリケーションを解き放つ可能性があります。
驚くべき画像生成品質により、拡散モデルは高品質の合成データを生成するための主要な候補です。
ただし、最近の研究では、デフォルトでは、一部の拡散モデルの出力はトレーニング データのプライバシーを保護しないことがわかっています。
8,000 万を超えるパラメーターを使用して ImageNet の事前トレーニング済み拡散モデルを個人的に微調整することにより、FID と合成データでトレーニングされたダウンストリーム分類子の精度の両方に関して、CIFAR-10 と Camelyon17 で SOTA の結果を取得します。
CIFAR-10 の SOTA FID を 26.2 から 9.8 に減らし、精度を 51.0% から 88.0% に上げました。
Camelyon17 の合成データでは、91.1% のダウンストリーム精度を達成しました。これは、実際のデータでトレーニングした場合の SOTA の 96.5% に近い値です。
生成モデルの機能を活用して、無限の量のデータを作成し、ダウンストリームの予測パフォーマンスを最大化し、ハイパーパラメーターの調整に合成データを使用する方法をさらに示します。
私たちの結果は、差分プライバシーで微調整された拡散モデルが、事前トレーニングと微調整の分布の間で大きな分布シフトがあるアプリケーションであっても、有用で証明可能なプライベートな合成データを生成できることを示しています。

要約(オリジナル)

The ability to generate privacy-preserving synthetic versions of sensitive image datasets could unlock numerous ML applications currently constrained by data availability. Due to their astonishing image generation quality, diffusion models are a prime candidate for generating high-quality synthetic data. However, recent studies have found that, by default, the outputs of some diffusion models do not preserve training data privacy. By privately fine-tuning ImageNet pre-trained diffusion models with more than 80M parameters, we obtain SOTA results on CIFAR-10 and Camelyon17 in terms of both FID and the accuracy of downstream classifiers trained on synthetic data. We decrease the SOTA FID on CIFAR-10 from 26.2 to 9.8, and increase the accuracy from 51.0% to 88.0%. On synthetic data from Camelyon17, we achieve a downstream accuracy of 91.1% which is close to the SOTA of 96.5% when training on the real data. We leverage the ability of generative models to create infinite amounts of data to maximise the downstream prediction performance, and further show how to use synthetic data for hyperparameter tuning. Our results demonstrate that diffusion models fine-tuned with differential privacy can produce useful and provably private synthetic data, even in applications with significant distribution shift between the pre-training and fine-tuning distributions.

arxiv情報

著者 Sahra Ghalebikesabi,Leonard Berrada,Sven Gowal,Ira Ktena,Robert Stanforth,Jamie Hayes,Soham De,Samuel L. Smith,Olivia Wiles,Borja Balle
発行日 2023-02-27 15:02:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.CV, cs.LG, stat.ML パーマリンク