PLAN: Variance-Aware Private Mean Estimation

要約

差分プライベート平均推定は、データ分析と機械学習のためのプライバシー保護アルゴリズムの重要な構成要素です。
最悪の場合のプライバシーと実用性のトレードオフはよく理解されていますが、多くのデータセットは、より優れたアルゴリズムを生み出すために悪用される可能性のある構造を示しています。
この論文では、$\textit{Private Limit Adapted Noise}$ (PLAN) を紹介します。これは、入力が $\mathbf 上の分布 $\mathcal{D}$ から独立してサンプリングされる設定における平均推定のための差分プライベート アルゴリズムのファミリーです。
{R}^d$、座標方向の標準偏差 $\boldsymbol{\sigma} \in \mathbf{R}^d$。
マハラノビス距離での平均推定と同様に、PLAN はノイズの形状をデータの形状に合わせて調整しますが、以前のアルゴリズムとは異なり、プライバシー バジェットは座標全体にわたって不均一に消費されます。
$\mathcal{D}$ の集中仮定の下で、ベクトル $\boldsymbol{\sigma}$ の歪みを利用し、$\ell_2$ 誤差に比例する (ゼロ集中の) 微分プライベート平均推定値を取得する方法を示します。
$\|\boldsymbol{\sigma}\|_1$。
以前の研究では $\boldsymbol{\sigma}$ が考慮されていないか、どちらの場合もマハラノビス距離 $\unicode{x2013}$ の測定誤差が $\sqrt{d}\| に比例する $\ell_2$ 誤差を引き起こしていました。
\boldsymbol{\sigma}\|_2$、最大 $\sqrt{d}$ 倍大きくなる可能性があります。
PLAN の有効性を検証するために、合成データと現実世界のデータの両方で精度を経験的に評価します。

要約(オリジナル)

Differentially private mean estimation is an important building block in privacy-preserving algorithms for data analysis and machine learning. Though the trade-off between privacy and utility is well understood in the worst case, many datasets exhibit structure that could potentially be exploited to yield better algorithms. In this paper we present $\textit{Private Limit Adapted Noise}$ (PLAN), a family of differentially private algorithms for mean estimation in the setting where inputs are independently sampled from a distribution $\mathcal{D}$ over $\mathbf{R}^d$, with coordinate-wise standard deviations $\boldsymbol{\sigma} \in \mathbf{R}^d$. Similar to mean estimation under Mahalanobis distance, PLAN tailors the shape of the noise to the shape of the data, but unlike previous algorithms the privacy budget is spent non-uniformly over the coordinates. Under a concentration assumption on $\mathcal{D}$, we show how to exploit skew in the vector $\boldsymbol{\sigma}$, obtaining a (zero-concentrated) differentially private mean estimate with $\ell_2$ error proportional to $\|\boldsymbol{\sigma}\|_1$. Previous work has either not taken $\boldsymbol{\sigma}$ into account, or measured error in Mahalanobis distance $\unicode{x2013}$ in both cases resulting in $\ell_2$ error proportional to $\sqrt{d}\|\boldsymbol{\sigma}\|_2$, which can be up to a factor $\sqrt{d}$ larger. To verify the effectiveness of PLAN, we empirically evaluate accuracy on both synthetic and real world data.

arxiv情報

著者 Martin Aumüller,Christian Janos Lebeda,Boel Nelson,Rasmus Pagh
発行日 2024-04-10 14:30:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.DS, cs.LG パーマリンク