DPM: Clustering Sensitive Data through Separation

要約

プライバシー保護クラスタリングは、機密情報が保護された状態を維持しながら、監視されていない方法でデータ ポイントをグループ化します。
以前のプライバシー保護クラスタリングは、点群の集中を特定することに焦点を当てていました。
このペーパーでは、別の道をたどって、データセットを分割する適切な区切り記号を特定することに焦点を当てます。
差分プライベート方式で正確なデータ ポイント セパレータを検索する、新しい差分プライベート クラスタリング アルゴリズム DPM を紹介します。
DPM は、正確なセパレーターを見つけるための 2 つの重要な課題に対処します。1 つはクラスター内の小さなギャップではなくクラスター間の大きなギャップであるセパレーターを識別すること、もう 1 つはプライバシー予算を効率的に使用するために、データを大きなサブパートに分割するセパレーターを優先することです。
DPM は、差分プライベート指数メカニズムを使用して、有用性が高いと証明されたクラスター セパレータをランダムに選択します。データ セット $D$ の場合、中央の $60\%$ 分位に広くて低密度のセパレータがある場合、DPM は確率 $1 でそのセパレータを見つけます。
– \exp(-\sqrt{|D|})$。
私たちの実験による評価では、DPM がクラスタリング メトリックの慣性に関して大幅な改善を達成していることが実証されています。
非プライベート KMeans++ の慣性結果をベースラインとして使用すると、$\varepsilon = 1$ および $\delta=10^{-5}$ の場合、DPM はベースラインとの差を最大 $50\%$ 改善します。
Chang と Kamith による最先端のクラスタリング アルゴリズムと比較すると、合成データ セットでは最大 $62\%$ の差があり、実世界のデータ セットでは最大 $62\%$ の差が生じます。

要約(オリジナル)

Privacy-preserving clustering groups data points in an unsupervised manner whilst ensuring that sensitive information remains protected. Previous privacy-preserving clustering focused on identifying concentration of point clouds. In this paper, we take another path and focus on identifying appropriate separators that split a data set. We introduce the novel differentially private clustering algorithm DPM that searches for accurate data point separators in a differentially private manner. DPM addresses two key challenges for finding accurate separators: identifying separators that are large gaps between clusters instead of small gaps within a cluster and, to efficiently spend the privacy budget, prioritising separators that split the data into large subparts. Using the differentially private Exponential Mechanism, DPM randomly chooses cluster separators with provably high utility: For a data set $D$, if there is a wide low-density separator in the central $60\%$ quantile, DPM finds that separator with probability $1 – \exp(-\sqrt{|D|})$. Our experimental evaluation demonstrates that DPM achieves significant improvements in terms of the clustering metric inertia. With the inertia results of the non-private KMeans++ as a baseline, for $\varepsilon = 1$ and $\delta=10^{-5}$ DPM improves upon the difference to the baseline by up to $50\%$ for a synthetic data set and by up to $62\%$ for a real-world data set compared to a state-of-the-art clustering algorithm by Chang and Kamath.

arxiv情報

著者 Yara Schütt,Johannes Liebenow,Tanya Braun,Marcel Gehrke,Florian Thaeter,Esfandiar Mohammadi
発行日 2023-07-06 13:12:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG パーマリンク