Better Private Linear Regression Through Better Private Feature Selection

要約

差分プライベート線形回帰に関する既存の研究は通常、エンドユーザーがデータ境界またはアルゴリズムのハイパーパラメータを正確に設定できることを前提としています。
エンドユーザーは多くの場合、データを直接調べずにこれらの要件を満たすのに苦労します (そしてプライバシーを侵害します)。
最近の研究では、これらの負担をユーザーからアルゴリズムに移すソリューションの開発が試みられていますが、機能の次元が増大するにつれて実用性を提供するのに苦労しています。
この研究では、Kendall 順位相関に基づく差分プライベート特徴選択方法を導入することにより、これらのアルゴリズムを高次元の問題に拡張します。
特徴が正規分布する設定の有用性が保証されていることを証明し、25 のデータセットにわたって実験を実施します。
回帰の前にこのプライベート特徴選択ステップを追加すると、プライバシー、計算、またはエンド ユーザーによる意思決定にほとんど追加コストをかけずに、「プラグ アンド プレイ」プライベート線形回帰アルゴリズムの適用可能性が大幅に広がることがわかりました。

要約(オリジナル)

Existing work on differentially private linear regression typically assumes that end users can precisely set data bounds or algorithmic hyperparameters. End users often struggle to meet these requirements without directly examining the data (and violating privacy). Recent work has attempted to develop solutions that shift these burdens from users to algorithms, but they struggle to provide utility as the feature dimension grows. This work extends these algorithms to higher-dimensional problems by introducing a differentially private feature selection method based on Kendall rank correlation. We prove a utility guarantee for the setting where features are normally distributed and conduct experiments across 25 datasets. We find that adding this private feature selection step before regression significantly broadens the applicability of “plug-and-play” private linear regression algorithms at little additional cost to privacy, computation, or decision-making by the end user.

arxiv情報

著者 Travis Dick,Jennifer Gillenwater,Matthew Joseph
発行日 2023-06-01 17:21:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG パーマリンク