要約
KL (Kurdyka-{L}ojasiewicz) 条件を満たす損失の私的経験的リスク最小化(ERM)問題を研究する。Polyak-{L}ojasiewicz(PL)条件は$kappa=2$のときのこの条件の特殊な場合である。具体的には、$rho$ゼロ集中微分プライバシー(zCDP)の制約の下でこの問題を研究する。kappaが[1,2]$で、損失関数がLipschitzで、十分大きい領域にわたって滑らかであるとき、我々は、分散に基づく新しいアルゴリズムを提供する、ここで、$n$はデータセットサイズ、$d$は次元であり、過剰経験リスクに対して$tilde{O}big(Γfrac{sqrt{d}}{nsqrt{rho}}big)^kappabig)$を達成する分散削減勾配降下に基づく新しいアルゴリズムを提供する。さらに、この率がほぼ最適であることを示す。kappa \geq 2$で、損失が代わりにLipschitzで弱凸であるとき、近位点法の私的実装で$tilde{O}big(Γfrac{sqrt{d}}{nsqrt}} ^kappa}big)$を達成できることを示す。KLパラメータが未知であるとき、我々は雑音勾配降下アルゴリズムの新しい修正と解析を提供し、このアルゴリズムが$tilde{O}big( \big(nfrac{sqrt{d}}{nsqrt{rho}}}^{4-kappa}}}big)$ の速度を適応的に達成し、$kappa = 2$のときほぼ最適であることを示す。さらに、KL条件を仮定することなく、同じ勾配降下アルゴリズムが、アルゴリズムの実行中、勾配が十分に大きいままであれば、定常点への高速収束を達成できることを示す。具体的には、このアルゴリズムがリプシッツの定常点を近似できることを示す、滑らかな(場合によっては非凸の)目的点の定常点を$tilde{O}big( \frac{sqrt}d}}{nsqrt{rho}}big)$ と同程度の速さで近似でき、$tilde{O}big( \big( \frac{sqrt}d}}{nsqrt{rho}}big)^{1/2}big)$ よりも決して悪くない。後者の率は分散減少に依存しない手法の最もよく知られた率と一致する。
要約(オリジナル)
We study private empirical risk minimization (ERM) problem for losses satisfying the $(\gamma,\kappa)$-Kurdyka-{\L}ojasiewicz (KL) condition. The Polyak-{\L}ojasiewicz (PL) condition is a special case of this condition when $\kappa=2$. Specifically, we study this problem under the constraint of $\rho$ zero-concentrated differential privacy (zCDP). When $\kappa\in[1,2]$ and the loss function is Lipschitz and smooth over a sufficiently large region, we provide a new algorithm based on variance reduced gradient descent that achieves the rate $\tilde{O}\big(\big(\frac{\sqrt{d}}{n\sqrt{\rho}}\big)^\kappa\big)$ on the excess empirical risk, where $n$ is the dataset size and $d$ is the dimension. We further show that this rate is nearly optimal. When $\kappa \geq 2$ and the loss is instead Lipschitz and weakly convex, we show it is possible to achieve the rate $\tilde{O}\big(\big(\frac{\sqrt{d}}{n\sqrt{\rho}}\big)^\kappa\big)$ with a private implementation of the proximal point method. When the KL parameters are unknown, we provide a novel modification and analysis of the noisy gradient descent algorithm and show that this algorithm achieves a rate of $\tilde{O}\big(\big(\frac{\sqrt{d}}{n\sqrt{\rho}}\big)^{\frac{2\kappa}{4-\kappa}}\big)$ adaptively, which is nearly optimal when $\kappa = 2$. We further show that, without assuming the KL condition, the same gradient descent algorithm can achieve fast convergence to a stationary point when the gradient stays sufficiently large during the run of the algorithm. Specifically, we show that this algorithm can approximate stationary points of Lipschitz, smooth (and possibly nonconvex) objectives with rate as fast as $\tilde{O}\big(\frac{\sqrt{d}}{n\sqrt{\rho}}\big)$ and never worse than $\tilde{O}\big(\big(\frac{\sqrt{d}}{n\sqrt{\rho}}\big)^{1/2}\big)$. The latter rate matches the best known rate for methods that do not rely on variance reduction.
arxiv情報
| 著者 | Michael Menart,Enayat Ullah,Raman Arora,Raef Bassily,Cristóbal Guzmán |
| 発行日 | 2024-04-03 14:23:20+00:00 |
| arxivサイト | arxiv_id(pdf) |