DPM: Clustering Sensitive Data through Separation

要約

クラスタリングはデータ探索のための重要なツールであり、その目的は、データ セットを基礎となるデータ構造によく適合する互いに素なクラスターに分割することです。
機密データを扱う場合、プライバシー保護アルゴリズムは、機密情報の漏洩を最小限に抑えながら、非プライベートのベースラインに近似することを目的としています。
最先端のプライバシー保護クラスタリング アルゴリズムは、標準メトリクス、慣性、シルエット スコア、クラスタリング精度の点で優れたクラスタを出力する傾向がありますが、クラスタリング結果は非プライベート KMeans ベースラインから大幅に逸脱しています。
この研究では、幾何学的クラスタリング アプローチに基づいてデータ セットを再帰的にクラスタに分割する、\DPM と呼ばれるプライバシー保護クラスタリング アルゴリズムを紹介します。
さらに、\DPM は、データに依存するハイパーパラメーターのほとんどをプライバシーを保護する方法で推定します。
\DPM が差分プライバシーを保持していることを証明し、\DPM のユーティリティ保証を分析します。
最後に、合成データセットと実際のデータセットに対して広範な実証的評価を実施します。
\DPM が標準のクラスタリング メトリックで最先端のユーティリティを実現し、クラスの数を必要とせずに、一般的な非プライベート KMeans アルゴリズムの結果にはるかに近いクラスタリング結果を生成することを示します。

要約(オリジナル)

Clustering is an important tool for data exploration where the goal is to subdivide a data set into disjoint clusters that fit well into the underlying data structure. When dealing with sensitive data, privacy-preserving algorithms aim to approximate the non-private baseline while minimising the leakage of sensitive information. State-of-the-art privacy-preserving clustering algorithms tend to output clusters that are good in terms of the standard metrics, inertia, silhouette score, and clustering accuracy, however, the clustering result strongly deviates from the non-private KMeans baseline. In this work, we present a privacy-preserving clustering algorithm called \DPM that recursively separates a data set into clusters based on a geometrical clustering approach. In addition, \DPM estimates most of the data-dependent hyper-parameters in a privacy-preserving way. We prove that \DPM preserves Differential Privacy and analyse the utility guarantees of \DPM. Finally, we conduct an extensive empirical evaluation for synthetic and real-life data sets. We show that \DPM achieves state-of-the-art utility on the standard clustering metrics and yields a clustering result much closer to that of the popular non-private KMeans algorithm without requiring the number of classes.

arxiv情報

著者 Johannes Liebenow,Yara Schütt,Tanya Braun,Marcel Gehrke,Florian Thaeter,Esfandiar Mohammadi
発行日 2024-08-15 15:28:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG パーマリンク