Differentially Private Low-dimensional Synthetic Data from High-dimensional Datasets

要約

差分プライベート合成データは、個人に関する機密情報を保護しながらデータ分析を可能にする強力なメカニズムを提供します。
ただし、データが高次元空間にある場合、合成データの精度は次元の呪いの影響を受けます。
この論文では、Wasserstein 距離に関する有用性が保証された高次元データセットから低次元合成データを効率的に生成する差分プライベート アルゴリズムを提案します。
私たちのアルゴリズムの重要なステップは、次元の呪いを回避する最適に近い精度限界を持つプライベート主成分分析 (PCA) 手順です。
標準的な摂動分析とは異なり、プライベート PCA の分析は、共分散行列のスペクトル ギャップを仮定せずに機能します。

要約(オリジナル)

Differentially private synthetic data provide a powerful mechanism to enable data analysis while protecting sensitive information about individuals. However, when the data lie in a high-dimensional space, the accuracy of the synthetic data suffers from the curse of dimensionality. In this paper, we propose a differentially private algorithm to generate low-dimensional synthetic data efficiently from a high-dimensional dataset with a utility guarantee with respect to the Wasserstein distance. A key step of our algorithm is a private principal component analysis (PCA) procedure with a near-optimal accuracy bound that circumvents the curse of dimensionality. Unlike the standard perturbation analysis, our analysis of private PCA works without assuming the spectral gap for the covariance matrix.

arxiv情報

著者 Yiyun He,Thomas Strohmer,Roman Vershynin,Yizhe Zhu
発行日 2024-12-11 16:38:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.DS, cs.LG, math.PR, math.ST, stat.TH パーマリンク