PRIMO: Private Regression in Multiple Outcomes


私たちは、複数の結果におけるプライベート回帰 (PRIMO) と呼ばれる新しいプライベート回帰設定を導入します。これは、データ アナリストがプライバシーを維持しながら一連の $l$ 回帰を実行したいという一般的な状況に触発され、特徴 $X$ が共有されます。
すべての $l$ 回帰、および各回帰 $i \in [l]$ は異なる結果ベクトル $y_i$ を持ちます。
既存のプライベート線形回帰手法を単純に $l$ 回適用すると、標準の線形回帰設定を超える誤差が $\sqrt{l}$ 乗算的に増加します。
私たちは、十分統計摂動 (SSP) や幾何学的投影ベースの手法を含むさまざまな手法を適用して、さまざまなパラメーター領域にわたってこのベースラインを上回るスケーラブルなアルゴリズムを開発します。
特に、$l$ が十分に大きい場合、漸近誤差において l への依存性は得られません。
経験的に、複数の表現型によるゲノムリスク予測のタスクでは、理論が予測するよりもはるかに小さい $l$ の値であっても、射影ベースの方法は射影を使用しないバリアントと比較して精度が向上することがわかりました。


We introduce a new private regression setting we call Private Regression in Multiple Outcomes (PRIMO), inspired by the common situation where a data analyst wants to perform a set of $l$ regressions while preserving privacy, where the features $X$ are shared across all $l$ regressions, and each regression $i \in [l]$ has a different vector of outcomes $y_i$. Naively applying existing private linear regression techniques $l$ times leads to a $\sqrt{l}$ multiplicative increase in error over the standard linear regression setting. We apply a variety of techniques including sufficient statistics perturbation (SSP) and geometric projection-based methods to develop scalable algorithms that outperform this baseline across a range of parameter regimes. In particular, we obtain no dependence on l in the asymptotic error when $l$ is sufficiently large. Empirically, on the task of genomic risk prediction with multiple phenotypes we find that even for values of $l$ far smaller than the theory would predict, our projection-based method improves the accuracy relative to the variant that doesn’t use the projection.


著者 Seth Neel
発行日 2025-01-15 15:06:56+00:00
arxivサイト arxiv_id(pdf)

カテゴリー: cs.CR, cs.LG パーマリンク