Personalized Privacy Amplification via Importance Sampling

要約

大規模なデータセットでのスケーラブルな機械学習の場合、代表的なサブセットをサブサンプリングすることは、効率的なモデルトレーニングの一般的なアプローチです。
これは多くの場合、重要なサンプリングを通じて達成されます。これにより、有益なデータポイントがより頻繁にサンプリングされます。
この論文では、個別のプライバシー分析に焦点を当てた重要性サンプリングのプライバシー特性を調べます。
重要性のサンプリングでは、プライバシーはユーティリティとよく整合しているが、サンプルサイズと対立していることがわかります。
この洞察に基づいて、サンプリング分布を構築するための2つのアプローチを提案します。1つはプライバシー効率のトレードオフを最適化します。
コアセットの形式でのユーティリティ保証に基づくもの。
差別的にプライベートな$ k $ -meansの問題に関するプライバシー、効率、および精度の観点から、経験的に両方のアプローチを評価します。
どちらのアプローチも同様の結果をもたらし、幅広いデータセットで一貫して均一なサンプリングを上回ることがわかります。
当社のコードは、github:https://github.com/smair/personalized-privacy-amplification-via-importance-samplingで入手できます

要約(オリジナル)

For scalable machine learning on large data sets, subsampling a representative subset is a common approach for efficient model training. This is often achieved through importance sampling, whereby informative data points are sampled more frequently. In this paper, we examine the privacy properties of importance sampling, focusing on an individualized privacy analysis. We find that, in importance sampling, privacy is well aligned with utility but at odds with sample size. Based on this insight, we propose two approaches for constructing sampling distributions: one that optimizes the privacy-efficiency trade-off; and one based on a utility guarantee in the form of coresets. We evaluate both approaches empirically in terms of privacy, efficiency, and accuracy on the differentially private $k$-means problem. We observe that both approaches yield similar outcomes and consistently outperform uniform sampling across a wide range of data sets. Our code is available on GitHub: https://github.com/smair/personalized-privacy-amplification-via-importance-sampling

arxiv情報

著者 Dominik Fay,Sebastian Mair,Jens Sjölund
発行日 2025-03-28 17:48:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG, stat.ML パーマリンク