Sample-Optimal Private Regression in Polynomial Time

要約

ガウス共変量の通常の最小二乗回帰問題(不明な共分散構造)における予測エラー保証を個人的に取得するタスクを検討します。
純粋なプライバシーと概算の両方のプライバシーの下で、このタスクの最初のサンプル最適時間アルゴリズムを提供します。
アルゴリズムのサンプルの複雑さを改善すると、統計的クエリまたは情報理論の下限のいずれかに違反することを示します。
さらに、私たちのアルゴリズムは、任意の外れ値のごく一部に対して堅牢であり、外れ値の割合の関数として最適なエラー率を達成します。
対照的に、すべての以前の効率的なアルゴリズムは、最適下の寸法依存性とサンプルの複雑さを発生させ、共変量の条件番号でスケーリングするか、プライバシーパラメーターに対する多項間悪い依存性を取得しました。
私たちの技術的貢献は2つあります。まず、Sum-of-Squaresフレームワーク内のガウスの回復力保証を活用します。
結果として、最適な堅牢性とサンプルの複雑さを備えた回帰のための効率的な平方根アルゴリズムを取得します。
第二に、入力サンプルの共分散によって引き起こされるジオメトリを説明するために、最近の堅牢性からプリバシーのフレームワーク[HKMN23、(Arxiv:2212.05015)]を一般的にします。
このフレームワークは、堅牢な推定器に決定的に依存しており、Sum-of-Squaresアルゴリズムであるため、2つのステップを組み合わせると、サンプル最適なプライベート回帰アルゴリズムが得られます。
私たちの手法は独立した関心があると考えており、プライバシーパラメーターに最適な依存性を備えた、共分散認識平均推定の効率的なアルゴリズムを取得することにより、これを実証しています。

要約(オリジナル)

We consider the task of privately obtaining prediction error guarantees in ordinary least-squares regression problems with Gaussian covariates (with unknown covariance structure). We provide the first sample-optimal polynomial time algorithm for this task under both pure and approximate differential privacy. We show that any improvement to the sample complexity of our algorithm would violate either statistical-query or information-theoretic lower bounds. Additionally, our algorithm is robust to a small fraction of arbitrary outliers and achieves optimal error rates as a function of the fraction of outliers. In contrast, all prior efficient algorithms either incurred sample complexities with sub-optimal dimension dependence, scaling with the condition number of the covariates, or obtained a polynomially worse dependence on the privacy parameters. Our technical contributions are two-fold: first, we leverage resilience guarantees of Gaussians within the sum-of-squares framework. As a consequence, we obtain efficient sum-of-squares algorithms for regression with optimal robustness rates and sample complexity. Second, we generalize the recent robustness-to-privacy framework [HKMN23, (arXiv:2212.05015)] to account for the geometry induced by the covariance of the input samples. This framework crucially relies on the robust estimators to be sum-of-squares algorithms, and combining the two steps yields a sample-optimal private regression algorithm. We believe our techniques are of independent interest, and we demonstrate this by obtaining an efficient algorithm for covariance-aware mean estimation, with an optimal dependence on the privacy parameters.

arxiv情報

著者 Prashanti Anderson,Ainesh Bakshi,Mahbod Majid,Stefan Tiegel
発行日 2025-03-31 17:08:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DS, cs.IT, cs.LG, math.IT, stat.ML パーマリンク