要約
差分プライベート合成データは、個人に関する機密情報を保護しながらデータ分析を可能にする強力なメカニズムを提供します。
ただし、データが高次元空間にある場合、合成データの精度は次元の呪いの影響を受けます。
この論文では、Wasserstein 距離に関する有用性が保証された高次元データセットから低次元合成データを効率的に生成する差分プライベート アルゴリズムを提案します。
私たちのアルゴリズムの重要なステップは、次元の呪いを回避する最適に近い精度限界を持つプライベート主成分分析 (PCA) 手順です。
標準的な摂動分析とは異なり、プライベート PCA の分析は、共分散行列のスペクトル ギャップを仮定せずに機能します。
要約(オリジナル)
Differentially private synthetic data provide a powerful mechanism to enable data analysis while protecting sensitive information about individuals. However, when the data lie in a high-dimensional space, the accuracy of the synthetic data suffers from the curse of dimensionality. In this paper, we propose a differentially private algorithm to generate low-dimensional synthetic data efficiently from a high-dimensional dataset with a utility guarantee with respect to the Wasserstein distance. A key step of our algorithm is a private principal component analysis (PCA) procedure with a near-optimal accuracy bound that circumvents the curse of dimensionality. Unlike the standard perturbation analysis, our analysis of private PCA works without assuming the spectral gap for the covariance matrix.
arxiv情報
| 著者 | Yiyun He,Thomas Strohmer,Roman Vershynin,Yizhe Zhu |
| 発行日 | 2024-12-11 16:38:15+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google