Differentially Private Generalized Linear Models Revisited

要約

凸損失を伴う線形予測子の $(\epsilon,\delta)$-差分プライベート学習の問題を研究します。
損失関数の 2 つのサブクラスの結果を提供します。
最初のケースは、損失が滑らかで負ではないが、必ずしもリプシッツではない場合です (二乗損失など)。
この場合、過剰人口リスクの上限 $\tilde{O}\left(\frac{\Vert w^*\Vert}{\sqrt{n}} + \min\left\{\
frac{\Vert w^* \Vert^2}{(n\epsilon)^{2/3}},\frac{\sqrt{d}\Vert w^*\Vert^2}{n\epsilon}\
right\}\right)$、ここで $n$ はサンプル数、$d$ は問題の次元、$w^*$ は母集団リスクの最小値です。
$\Vert w^\ast\Vert$ への依存を除けば、すべてのパラメータにおいて限界は本質的に厳しいです。
特に、 $\tilde{\Omega}\left(\frac{1}{\sqrt{n}} + {\min\left\{\frac{\Vert w^*\Vert^ の下限を示します。
{4/3}}{(n\epsilon)^{2/3}}, \frac{\sqrt{d}\Vert w^*\Vert}{n\epsilon}\right\}}\right)$

また、以前に研究されたリプシッツ損失のケース [SSTT20] も再検討します。
このケースでは、既存の研究のギャップを埋め、最適なレートが (対数因数まで) $\Theta\left(\frac{\Vert w^*\Vert}{\sqrt{n}} + であることを示します
\min\left\{\frac{\Vert w^*\Vert}{\sqrt{n\epsilon}},\frac{\sqrt{\text{rank}}\Vert w^*\Vert}{n\
epsilon}\right\}\right)$、ここで $\text{rank}$ は計画行列のランクです。
これにより、高度なプライバシー体制での既存の作業よりも改善されます。
最後に、私たちのアルゴリズムには、$\Vert w^*\Vert$ の事前知識がなくても指定されたレートを達成できるように開発したプライベート モデル選択アプローチが含まれています。

要約(オリジナル)

We study the problem of $(\epsilon,\delta)$-differentially private learning of linear predictors with convex losses. We provide results for two subclasses of loss functions. The first case is when the loss is smooth and non-negative but not necessarily Lipschitz (such as the squared loss). For this case, we establish an upper bound on the excess population risk of $\tilde{O}\left(\frac{\Vert w^*\Vert}{\sqrt{n}} + \min\left\{\frac{\Vert w^* \Vert^2}{(n\epsilon)^{2/3}},\frac{\sqrt{d}\Vert w^*\Vert^2}{n\epsilon}\right\}\right)$, where $n$ is the number of samples, $d$ is the dimension of the problem, and $w^*$ is the minimizer of the population risk. Apart from the dependence on $\Vert w^\ast\Vert$, our bound is essentially tight in all parameters. In particular, we show a lower bound of $\tilde{\Omega}\left(\frac{1}{\sqrt{n}} + {\min\left\{\frac{\Vert w^*\Vert^{4/3}}{(n\epsilon)^{2/3}}, \frac{\sqrt{d}\Vert w^*\Vert}{n\epsilon}\right\}}\right)$. We also revisit the previously studied case of Lipschitz losses [SSTT20]. For this case, we close the gap in the existing work and show that the optimal rate is (up to log factors) $\Theta\left(\frac{\Vert w^*\Vert}{\sqrt{n}} + \min\left\{\frac{\Vert w^*\Vert}{\sqrt{n\epsilon}},\frac{\sqrt{\text{rank}}\Vert w^*\Vert}{n\epsilon}\right\}\right)$, where $\text{rank}$ is the rank of the design matrix. This improves over existing work in the high privacy regime. Finally, our algorithms involve a private model selection approach that we develop to enable attaining the stated rates without a-priori knowledge of $\Vert w^*\Vert$.

arxiv情報

著者 Raman Arora,Raef Bassily,Cristóbal Guzmán,Michael Menart,Enayat Ullah
発行日 2024-03-06 17:22:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク