The Normal Distributions Indistinguishability Spectrum and its Application to Privacy-Preserving Machine Learning

要約

差分プライバシー (DP) (およびそのバリアント) は、プライバシーに配慮したデータに対する機械学習 (ML) の最も一般的な方法です。
ビッグ データ分析では、高次元データの処理を容易にするために、ランダム化されたスケッチ/集計アルゴリズムがよく使用されます。
直感的には、このような ML アルゴリズムは固有のプライバシーを提供するはずですが、既存の DP メカニズムのほとんどはこの固有のランダム性を活用していないか、十分に活用していないため、冗長なノイズが発生する可能性があります。
私たちの研究の動機となる質問は、クエリ自体のランダム性を利用して、ランダム化された ML クエリに対する DP メカニズムの有用性を (どのように) 改善できるかということです。
(肯定的な) 答えに向けて、私たちの主な貢献は、NDIS 定理と呼ばれるもの、いくつかの実際的な意味を伴う理論的結果を (証明する) ことです。
簡単に言うと、NDIS は、2 つの任意の正規分布 N1 および N2 の (バレプシロン,デルタ) 識別不能スペクトル (IS)、つまり、(任意のバレプシロンに対する) 最適なデルタ (N1 と
N2 は DP 距離に応じて (バレ​​プシロン,デルタ) に近いです。
NDIS 定理の重要性は、(1) IS の効率的な推定量が得られること、(2) 正規分布された出力を使用した DP メカニズムの分析が可能になること、および大きな入力での動作を活用することでより一般的なメカニズムを分析できることです。

NDIS 定理を適用して、正規分布出力を持つクエリ (つまり、ガウスランダム射影 (RP)) と、より一般的なクエリ (つまり、最小二乗法 (OLS)) の DP メカニズムを導き出します。
既存の技術と比較して、当社の新しい DP メカニズムは、基礎となるアルゴリズムのランダム性を活用することで、優れたプライバシーとユーティリティのトレードオフを実現します。
次に、NDIS 定理をデータ駆動型 DP 概念、特に Lu らによって導入された相対 DP に適用します。
[S&P 2024]。
私たちの方法は、追加のノイズが必要ない (バレプシロン,デルタ) の範囲を特定します。

要約(オリジナル)

Differential Privacy (DP) (and its variants) is the most common method for machine learning (ML) on privacy-sensitive data. In big data analytics, one often uses randomized sketching/aggregation algorithms to make processing high-dimensional data tractable. Intuitively, such ML algorithms should provide some inherent privacy, yet most existing DP mechanisms do not leverage or under-utilize this inherent randomness, resulting in potentially redundant noising. The motivating question of our work is: (How) can we improve the utility of DP mechanisms for randomized ML queries, by leveraging the randomness of the query itself? Towards a (positive) answer, our key contribution is (proving) what we call the NDIS theorem, a theoretical result with several practical implications. In a nutshell, NDIS is a closed-form analytic computation for the (varepsilon,delta)-indistinguishability-spectrum (IS) of two arbitrary normal distributions N1 and N2, i.e., the optimal delta (for any given varepsilon) such that N1 and N2 are (varepsilon,delta)-close according to the DP distance. The importance of the NDIS theorem lies in that (1) it yields efficient estimators for IS, and (2) it allows us to analyze DP-mechanism with normally-distributed outputs, as well as more general mechanisms by leveraging their behavior on large inputs. We apply the NDIS theorem to derive DP mechanisms for queries with normally-distributed outputs–i.e., Gaussian Random Projections (RP)–and for more general queries–i.e., Ordinary Least Squares (OLS). Compared to existing techniques, our new DP mechanisms achieve superior privacy/utility trade-offs by leveraging the randomness of the underlying algorithms. We then apply the NDIS theorem to a data-driven DP notion–in particular relative DP introduced by Lu et al. [S&P 2024]. Our method identifies the range of (varepsilon,delta) for which no additional noising is needed.

arxiv情報

著者 Yun Lu,Malik Magdon-Ismail,Yu Wei,Vassilis Zikas
発行日 2024-06-21 16:54:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG パーマリンク