Training generative models from privatized data

要約

局所差分プライバシーは、プライバシーを保護したデータ収集のための強力な手法である。本論文では、差分プライバシー化されたデータに対してGenerative Adversarial Networks(GAN)を学習するためのフレームワークを開発する。我々は、最適輸送のエントロピー正則化(計算上の利点からよく利用される正則化手法)により、生成器が非公開化されたサンプルにしかアクセスできないにもかかわらず、生の(非公開化されていない)データ分布を学習できることを示す。同時に、これはパラメトリック速度での高速な統計的収束をもたらすことを証明する。このことは、最適輸送のエントロピー正則化によって、統計的収束における私有化ノイズの影響と次元の呪いの両方の緩和が可能になることを示している。本フレームワークの有効性を裏付ける実験的証拠を提供する。

要約(オリジナル)

Local differential privacy is a powerful method for privacy-preserving data collection. In this paper, we develop a framework for training Generative Adversarial Networks (GANs) on differentially privatized data. We show that entropic regularization of optimal transport – a popular regularization method in the literature that has often been leveraged for its computational benefits – enables the generator to learn the raw (unprivatized) data distribution even though it only has access to privatized samples. We prove that at the same time this leads to fast statistical convergence at the parametric rate. This shows that entropic regularization of optimal transport uniquely enables the mitigation of both the effects of privatization noise and the curse of dimensionality in statistical convergence. We provide experimental evidence to support the efficacy of our framework in practice.

arxiv情報

著者 Daria Reshetova,Wei-Ning Chen,Ayfer Özgür
発行日 2024-03-01 01:54:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CR, cs.IT, cs.LG, math.IT パーマリンク