要約
この論文では、データセットの幾何学的中央値 (GM) を計算するための差分プライベート (DP) アルゴリズムを研究します。
目標は、これらの点までのユークリッド距離の合計、つまり $\sum_{i=1}^{n} \|\theta – x_i\|_2$ を最小にする点 $\theta$ を見つけることです。
DP-GD などの既製の手法では、半径 $R$ のボール内にデータを配置する強力な先験的知識が必要であり、アルゴリズムの超過リスクは $R$ に線形に依存します。
このペーパーでは、データポイントの大部分を含む (未知の) 半径に合わせてスケールする超過誤差保証を備えた効率的でプライベートなアルゴリズムを設計できるか、と考えます。
私たちの主な貢献は、データポイントの有効直径に応じてスケールする超過誤差保証を備えたプライベート GM タスク用の 1 対の多項式時間 DP アルゴリズムです。
さらに、純粋な DP のより限定的な概念を満たす、逆スムーズ感度メカニズムに基づく非効率なアルゴリズムを提案します。
結果を下限で補完し、サンプルの複雑さの観点から多項式時間アルゴリズムの最適性を実証します。
要約(オリジナル)
In this paper, we study differentially private (DP) algorithms for computing the geometric median (GM) of a dataset: Given $n$ points, $x_1,\dots,x_n$ in $\mathbb{R}^d$, the goal is to find a point $\theta$ that minimizes the sum of the Euclidean distances to these points, i.e., $\sum_{i=1}^{n} \|\theta – x_i\|_2$. Off-the-shelf methods, such as DP-GD, require strong a priori knowledge locating the data within a ball of radius $R$, and the excess risk of the algorithm depends linearly on $R$. In this paper, we ask: can we design an efficient and private algorithm with an excess error guarantee that scales with the (unknown) radius containing the majority of the datapoints? Our main contribution is a pair of polynomial-time DP algorithms for the task of private GM with an excess error guarantee that scales with the effective diameter of the datapoints. Additionally, we propose an inefficient algorithm based on the inverse smooth sensitivity mechanism, which satisfies the more restrictive notion of pure DP. We complement our results with a lower bound and demonstrate the optimality of our polynomial-time algorithms in terms of sample complexity.
arxiv情報
著者 | Mahdi Haghifam,Thomas Steinke,Jonathan Ullman |
発行日 | 2024-06-11 16:13:09+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google