Noise-Aware Statistical Inference with Differentially Private Synthetic Data

要約

差分プライバシー (DP) の下での合成データの生成は、データ プライバシー コミュニティで多くの注目を集めていますが、合成データの分析はそれほど注目されていません。
既存の研究では、DP 合成データを本物であるかのように単純に分析しても、人口レベルの量の有効な推論が得られないことが示されています。
たとえば、信頼区間が狭くなりすぎることを簡単な実験で示します。
多重代入 (MI) の分野からの合成データ分析技術と、ノイズ認識 (NA) ベイジアン モデリングを使用した合成データ生成をパイプライン NA+MI に組み合わせることで、この問題に取り組みます。
DP合成データから。
限界クエリの値を使用して離散データ生成に NA+MI を実装するために、最大エントロピーの原理を使用して、新しいノイズ認識合成データ生成アルゴリズム NAPSU-MQ を開発します。
私たちの実験は、パイプラインが DP 合成データから正確な信頼区間を生成できることを示しています。
間隔は、DP ノイズに起因する追加の不確実性を正確にキャプチャするために、プライバシーが厳しくなるにつれて広くなります。

要約(オリジナル)

While generation of synthetic data under differential privacy (DP) has received a lot of attention in the data privacy community, analysis of synthetic data has received much less. Existing work has shown that simply analysing DP synthetic data as if it were real does not produce valid inferences of population-level quantities. For example, confidence intervals become too narrow, which we demonstrate with a simple experiment. We tackle this problem by combining synthetic data analysis techniques from the field of multiple imputation (MI), and synthetic data generation using noise-aware (NA) Bayesian modeling into a pipeline NA+MI that allows computing accurate uncertainty estimates for population-level quantities from DP synthetic data. To implement NA+MI for discrete data generation using the values of marginal queries, we develop a novel noise-aware synthetic data generation algorithm NAPSU-MQ using the principle of maximum entropy. Our experiments demonstrate that the pipeline is able to produce accurate confidence intervals from DP synthetic data. The intervals become wider with tighter privacy to accurately capture the additional uncertainty stemming from DP noise.

arxiv情報

著者 Ossi Räisä,Joonas Jälkö,Samuel Kaski,Antti Honkela
発行日 2023-02-24 17:58:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG, stat.ML パーマリンク