On the Inadequacy of Similarity-based Privacy Metrics: Reconstruction Attacks against ‘Truly Anonymous Synthetic Data”

要約

生成モデルをトレーニングして合成データを生成することは、データ公開に対するプライバシーに配慮したアプローチを提供することを目的としています。
ただし、差分プライバシー (DP) を満たすようにモデルがトレーニングされている場合にのみ、堅牢な保証が得られます。
残念なことに、これは業界の標準ではありません。多くの企業がアドホックな戦略を使用して、合成データと実際のデータの間の統計的類似性に基づいてプライバシーを経験的に評価しているからです。
このペーパーでは、この分野の大手企業が提供するプライバシー指標をレビューし、実証的評価を通じてプライバシーに関する推論におけるいくつかの重大な欠陥を明らかにします。
最も一般的なメトリクスとフィルターの望ましくない特性を分析し、反例を通じてそれらの信頼性の低さと一貫性のなさを実証します。
次に、再構築攻撃である ReconSyn を紹介します。これは、単一の適合生成モデルとプライバシーへのブラックボックス アクセスのみで、低密度の列車記録 (または外れ値) の少なくとも 78% を正常に回復します (つまり、すべての属性を漏洩します)。
メトリクス。
最後に、プライバシー漏洩は主にメトリクスに起因するため、DP をモデルにのみ適用したり、ユーティリティの低いジェネレーターを使用したりしても ReconSyn は軽減されないことを示します。
全体として、私たちの取り組みは、確立されたプライバシー保護メカニズムから逸脱しないよう実務家に警告する役割を果たしています。

要約(オリジナル)

Training generative models to produce synthetic data is meant to provide a privacy-friendly approach to data release. However, we get robust guarantees only when models are trained to satisfy Differential Privacy (DP). Alas, this is not the standard in industry as many companies use ad-hoc strategies to empirically evaluate privacy based on the statistical similarity between synthetic and real data. In this paper, we review the privacy metrics offered by leading companies in this space and shed light on a few critical flaws in reasoning about privacy entirely via empirical evaluations. We analyze the undesirable properties of the most popular metrics and filters and demonstrate their unreliability and inconsistency through counter-examples. We then present a reconstruction attack, ReconSyn, which successfully recovers (i.e., leaks all attributes of) at least 78% of the low-density train records (or outliers) with only black-box access to a single fitted generative model and the privacy metrics. Finally, we show that applying DP only to the model or using low-utility generators does not mitigate ReconSyn as the privacy leakage predominantly comes from the metrics. Overall, our work serves as a warning to practitioners not to deviate from established privacy-preserving mechanisms.

arxiv情報

著者 Georgi Ganev,Emiliano De Cristofaro
発行日 2023-12-08 15:42:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.LG パーマリンク