Public-data Assisted Private Stochastic Optimization: Power and Limitations

要約

私たちは、パブリックデータ支援差分プライベート (PA-DP) アルゴリズムの限界と機能を研究します。
具体的には、ラベル付きまたはラベルなしの公開データを使用した確率的凸最適化 (SCO) の問題に焦点を当てます。
完全な/ラベル付き公開データの場合、$(\epsilon,\delta)$-PA-DP には過剰リスクがあることがわかります $\tilde{\Omega}\big(\min\big\{\frac{1}{\
sqrt{n_{\text{pub}}}},\frac{1}{\sqrt{n}}+\frac{\sqrt{d}}{n\epsilon} \big\} \big)$、ここで
$d$ はディメンション、${n_{\text{pub}}}$ はパブリック サンプルの数、${n_{\text{priv}}}$ はプライベート サンプルの数、$n={
n_{\text{pub}}}+{n_{\text{priv}}}$。
これらの下限は、同様の形式の PA-DP 平均推定の新しい下限によって確立されます。
これらの下限は、定数係数までは、すべてのデータをプライベートとして扱うか、プライベート データを破棄するかの単純な戦略が最適であることを示しています。
また、\textit{unlabeled} 公開サンプルを使用した PA-DP 教師あり学習についても研究します。
以前の結果とは対照的に、ここではプライベート教師あり学習で公的データを活用するための新しい方法を示します。
ラベルのない公開データを使用した一般化線形モデル (GLM) について、$\tilde{O}({n_{\text{priv}}}\epsilon)$ のラベルのない公開サンプルが与えられた場合に、次元に依存しないレートを達成する効率的なアルゴリズムを示します。
$\tilde{O}\big(\frac{1}{\sqrt{{n_{\text{priv}}}}} + \frac{1}{\sqrt{{n_{\text{priv}}}
\epsilon}}\big)$。
我々は、この設定の新しい下限を開発しました。これは、公開サンプルを増やしてもこの率を改善することはできず、公開サンプルが少ないと率が悪化することを示しています。
最後に、この結果を、ニューラル ネットワークと非ユークリッド幾何学に適用して、有限の脂肪粉砕次元を持つ一般仮説クラスに拡張します。

要約(オリジナル)

We study the limits and capability of public-data assisted differentially private (PA-DP) algorithms. Specifically, we focus on the problem of stochastic convex optimization (SCO) with either labeled or unlabeled public data. For complete/labeled public data, we show that any $(\epsilon,\delta)$-PA-DP has excess risk $\tilde{\Omega}\big(\min\big\{\frac{1}{\sqrt{n_{\text{pub}}}},\frac{1}{\sqrt{n}}+\frac{\sqrt{d}}{n\epsilon} \big\} \big)$, where $d$ is the dimension, ${n_{\text{pub}}}$ is the number of public samples, ${n_{\text{priv}}}$ is the number of private samples, and $n={n_{\text{pub}}}+{n_{\text{priv}}}$. These lower bounds are established via our new lower bounds for PA-DP mean estimation, which are of a similar form. Up to constant factors, these lower bounds show that the simple strategy of either treating all data as private or discarding the private data, is optimal. We also study PA-DP supervised learning with \textit{unlabeled} public samples. In contrast to our previous result, we here show novel methods for leveraging public data in private supervised learning. For generalized linear models (GLM) with unlabeled public data, we show an efficient algorithm which, given $\tilde{O}({n_{\text{priv}}}\epsilon)$ unlabeled public samples, achieves the dimension independent rate $\tilde{O}\big(\frac{1}{\sqrt{{n_{\text{priv}}}}} + \frac{1}{\sqrt{{n_{\text{priv}}}\epsilon}}\big)$. We develop new lower bounds for this setting which shows that this rate cannot be improved with more public samples, and any fewer public samples leads to a worse rate. Finally, we provide extensions of this result to general hypothesis classes with finite fat-shattering dimension with applications to neural networks and non-Euclidean geometries.

arxiv情報

著者 Enayat Ullah,Michael Menart,Raef Bassily,Cristóbal Guzmán,Raman Arora
発行日 2024-03-06 17:06:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG, math.OC, stat.ML パーマリンク