Differentially Private Non-Convex Optimization under the KL Condition with Optimal Rates

要約

$(\gamma,\kappa)$-Kurdyka-{\L}ojasiewicz (KL) 条件を満たす損失に対する民間の経験的リスク最小化 (ERM) 問題を研究します。
Polyak-{\L}ojasiewicz (PL) 条件は、$\kappa=2$ の場合のこの条件の特殊なケースです。
具体的には、$\rho$ ゼロ集中差分プライバシー (zCDP) の制約の下でこの問題を研究します。
$\kappa\in[1,2]$ で、損失関数がリプシッツで、十分に広い領域にわたって滑らかな場合、レート $\tilde{O}\big(
超過経験リスクに対する \big(\frac{\sqrt{d}}{n\sqrt{\rho}}\big)^\kappa\big)$、ここで $n$ はデータセット サイズ、$d$ は
次元。
さらに、この速度がほぼ最適であることを示します。
$\kappa \geq 2$ で、損失がリプシッツで弱凸の場合、レート $\tilde{O}\big(\big(\frac{\sqrt{d}}{n) を達成できることがわかります。
\sqrt{\rho}}\big)^\kappa\big)$ と近位点メソッドのプライベート実装。
KL パラメータが不明な場合、ノイズを含む勾配降下法アルゴリズムの新しい修正と分析を提供し、このアルゴリズムが $\tilde{O}\big(\big(\frac{\sqrt{d}}
{n\sqrt{\rho}}\big)^{\frac{2\kappa}{4-\kappa}}\big)$ を適応的に適用します。これは $\kappa = 2$ の場合にほぼ最適です。
さらに、KL 条件を仮定せずに、アルゴリズムの実行中に勾配が十分に大きいままであれば、同じ勾配降下法アルゴリズムが静止点への高速収束を達成できることを示します。
具体的には、このアルゴリズムが $\tilde{O}\big(\frac{\sqrt{d}}{n\sqrt{\
rho}}\big)$、$\tilde{O}\big(\big(\frac{\sqrt{d}}{n\sqrt{\rho}}\big)^{1/2} よりも悪いことはありません
\big)$。
後者のレートは、分散削減に依存しない方法で最もよく知られているレートと一致します。

要約(オリジナル)

We study private empirical risk minimization (ERM) problem for losses satisfying the $(\gamma,\kappa)$-Kurdyka-{\L}ojasiewicz (KL) condition. The Polyak-{\L}ojasiewicz (PL) condition is a special case of this condition when $\kappa=2$. Specifically, we study this problem under the constraint of $\rho$ zero-concentrated differential privacy (zCDP). When $\kappa\in[1,2]$ and the loss function is Lipschitz and smooth over a sufficiently large region, we provide a new algorithm based on variance reduced gradient descent that achieves the rate $\tilde{O}\big(\big(\frac{\sqrt{d}}{n\sqrt{\rho}}\big)^\kappa\big)$ on the excess empirical risk, where $n$ is the dataset size and $d$ is the dimension. We further show that this rate is nearly optimal. When $\kappa \geq 2$ and the loss is instead Lipschitz and weakly convex, we show it is possible to achieve the rate $\tilde{O}\big(\big(\frac{\sqrt{d}}{n\sqrt{\rho}}\big)^\kappa\big)$ with a private implementation of the proximal point method. When the KL parameters are unknown, we provide a novel modification and analysis of the noisy gradient descent algorithm and show that this algorithm achieves a rate of $\tilde{O}\big(\big(\frac{\sqrt{d}}{n\sqrt{\rho}}\big)^{\frac{2\kappa}{4-\kappa}}\big)$ adaptively, which is nearly optimal when $\kappa = 2$. We further show that, without assuming the KL condition, the same gradient descent algorithm can achieve fast convergence to a stationary point when the gradient stays sufficiently large during the run of the algorithm. Specifically, we show that this algorithm can approximate stationary points of Lipschitz, smooth (and possibly nonconvex) objectives with rate as fast as $\tilde{O}\big(\frac{\sqrt{d}}{n\sqrt{\rho}}\big)$ and never worse than $\tilde{O}\big(\big(\frac{\sqrt{d}}{n\sqrt{\rho}}\big)^{1/2}\big)$. The latter rate matches the best known rate for methods that do not rely on variance reduction.

arxiv情報

著者 Michael Menart,Enayat Ullah,Raman Arora,Raef Bassily,Cristóbal Guzmán
発行日 2023-11-22 15:12:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG, math.OC, stat.ML パーマリンク