要約
データ サイエンティストは、高次元データセットの最も重要な特徴を特定しようとすることがよくあります。
これは $L_1$ 正則化回帰によって実行できますが、非常に高次元のデータセットでは非効率になる可能性があります。
さらに、高次元回帰により、データセット内の個々のデータポイントに関する情報が漏洩する可能性があります。
この論文では、差分プライバシーを使用した特徴選択の確立されたベースライン手法である 2 段階選択手法を経験的に評価し、それがスパース性の下では安定しないことを示します。
これにより、現実世界のデータセットではパフォーマンスが低下するため、プライベート特徴選択に対する別のアプローチを検討します。
相関ベースの順序統計を使用してデータセットから重要な特徴を選択し、結果によって個々のデータポイントに関する情報が漏洩しないようにそれらをプライベート化します。
私たちの方法は、多くのデータセットでプライベート特徴選択の確立されたベースラインを大幅に上回っていることがわかりました。
要約(オリジナル)
Data scientists often seek to identify the most important features in high-dimensional datasets. This can be done through $L_1$-regularized regression, but this can become inefficient for very high-dimensional datasets. Additionally, high-dimensional regression can leak information about individual datapoints in a dataset. In this paper, we empirically evaluate the established baseline method for feature selection with differential privacy, the two-stage selection technique, and show that it is not stable under sparsity. This makes it perform poorly on real-world datasets, so we consider a different approach to private feature selection. We employ a correlations-based order statistic to choose important features from a dataset and privatize them to ensure that the results do not leak information about individual datapoints. We find that our method significantly outperforms the established baseline for private feature selection on many datasets.
arxiv情報
著者 | Ryan Swope,Amol Khanna,Philip Doldo,Saptarshi Roy,Edward Raff |
発行日 | 2024-08-20 13:54:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google