Differentially-Private Data Synthetisation for Efficient Re-Identification Risk Control

要約

ユーザー データのプライバシーの保護は、統計変換から生成モデルに至るまで、さまざまな方法で実現できます。
ただし、それらにはすべて重大な欠点があります。
たとえば、従来の手法を使用して変換されたデータセットを作成するには、非常に時間がかかります。
また、最近のディープ ラーニング ベースのソリューションは、長いトレーニング フェーズに加えて大量の計算リソースを必要とし、差分プライベート ベースのソリューションはデータの有用性を損なう可能性があります。
この論文では、$\epsilon$-PrivateSMOTE を提案します。これは、再識別およびリンケージ攻撃から保護するために設計された手法で、特に、\ずさんな再識別リスクが高いケースに対処します。
私たちの提案は、ノイズ誘発補間による合成データ生成と差分プライバシー原則を組み合わせて、高リスクのケースを難読化します。
$\epsilon$-PrivateSMOTE が、敵対的生成ネットワーク、変分オートエンコーダ、差分などの複数の従来型および最先端のプライバシー保護手法と比較して、プライバシー リスクにおいてどのように競争力のある結果を達成し、より優れた予測パフォーマンスを達成できるかを実証します。
プライバシーのベースライン。
また、私たちの方法が所要時間を少なくとも 9 倍改善し、特殊なハードウェアを使用せずに高いパフォーマンスを保証するリソース効率の高いソリューションであることも示します。

要約(オリジナル)

Protecting user data privacy can be achieved via many methods, from statistical transformations to generative models. However, all of them have critical drawbacks. For example, creating a transformed data set using traditional techniques is highly time-consuming. Also, recent deep learning-based solutions require significant computational resources in addition to long training phases, and differentially private-based solutions may undermine data utility. In this paper, we propose $\epsilon$-PrivateSMOTE, a technique designed for safeguarding against re-identification and linkage attacks, particularly addressing cases with a high \sloppy re-identification risk. Our proposal combines synthetic data generation via noise-induced interpolation with differential privacy principles to obfuscate high-risk cases. We demonstrate how $\epsilon$-PrivateSMOTE is capable of achieving competitive results in privacy risk and better predictive performance when compared to multiple traditional and state-of-the-art privacy-preservation methods, including generative adversarial networks, variational autoencoders, and differential privacy baselines. We also show how our method improves time requirements by at least a factor of 9 and is a resource-efficient solution that ensures high performance without specialised hardware.

arxiv情報

著者 Tânia Carvalho,Nuno Moniz,Luís Antunes,Nitesh Chawla
発行日 2024-04-23 16:22:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG パーマリンク