要約
生成モデルからの合成データは、プライバシーを保護するデータ共有ソリューションとして登場します。
このような合成データセットは、個人を特定できる情報を明らかにすることなく、元のデータに似ているものとします。
表形式シンセサイザーのバックボーン テクノロジーは、敵対的生成ネットワーク (GAN) から最近の拡散モデルに至るまで、画像生成モデルに根ざしています。
最近の先行研究では、表形式データにおけるユーティリティとプライバシーのトレードオフに光を当て、合成データにおけるプライバシー リスクを明らかにし、定量化しています。
まず、メンバーシップ推論攻撃に特に焦点を当てて、5 つの最先端の表形式シンセサイザーと 8 つのプライバシー攻撃のユーティリティとプライバシーのトレードオフを強調する徹底的な実証分析を行います。
表形式拡散におけるデータ品質は高いが、プライバシーリスクも高いという観察を動機として、私たちは、表形式データをエンコードするオートエンコーダネットワークと、表形式データを合成する潜在拡散モデルで構成される差分プライベート表形式潜在拡散モデルであるDP-TLDMを提案します。
潜在テーブル。
新しい f-DP フレームワークに従って、DP-SGD を適用してバッチ クリッピングと組み合わせて自動エンコーダーをトレーニングし、分離値をプライバシー メトリックとして使用して、DP アルゴリズムからのプライバシー ゲインをより適切に捕捉します。
私たちの実証的評価は、DP-TLDM が合成データの有用性を大幅に向上させながら、意味のある理論上のプライバシー保証を達成できることを示しています。
具体的には、他の DP で保護された表形式生成モデルと比較して、DP-TLDM は、同等のデータ類似性を維持しながら、データ類似性で平均 35%、下流タスクのユーティリティで 15%、データ識別性で 50% の合成品質を向上させます。
プライバシーリスクのレベル。
要約(オリジナル)
Synthetic data from generative models emerges as the privacy-preserving data-sharing solution. Such a synthetic data set shall resemble the original data without revealing identifiable private information. The backbone technology of tabular synthesizers is rooted in image generative models, ranging from Generative Adversarial Networks (GANs) to recent diffusion models. Recent prior work sheds light on the utility-privacy tradeoff on tabular data, revealing and quantifying privacy risks on synthetic data. We first conduct an exhaustive empirical analysis, highlighting the utility-privacy tradeoff of five state-of-the-art tabular synthesizers, against eight privacy attacks, with a special focus on membership inference attacks. Motivated by the observation of high data quality but also high privacy risk in tabular diffusion, we propose DP-TLDM, Differentially Private Tabular Latent Diffusion Model, which is composed of an autoencoder network to encode the tabular data and a latent diffusion model to synthesize the latent tables. Following the emerging f-DP framework, we apply DP-SGD to train the auto-encoder in combination with batch clipping and use the separation value as the privacy metric to better capture the privacy gain from DP algorithms. Our empirical evaluation demonstrates that DP-TLDM is capable of achieving a meaningful theoretical privacy guarantee while also significantly enhancing the utility of synthetic data. Specifically, compared to other DP-protected tabular generative models, DP-TLDM improves the synthetic quality by an average of 35% in data resemblance, 15% in the utility for downstream tasks, and 50% in data discriminability, all while preserving a comparable level of privacy risk.
arxiv情報
著者 | Chaoyi Zhu,Jiayi Tang,Hans Brouwer,Juan F. Pérez,Marten van Dijk,Lydia Y. Chen |
発行日 | 2024-03-12 17:27:49+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google