Provable Privacy with Non-Private Pre-Processing

要約

Differentially Private (DP) 機械学習パイプラインを分析する場合、データに依存する前処理に伴う潜在的なプライバシー コストがプライバシー会計で見落とされることがよくあります。
この研究では、非プライベート データに依存しない前処理アルゴリズムによって発生する追加のプライバシー コストを評価するための一般的なフレームワークを提案します。
私たちのフレームワークは、スムーズ DP と呼ばれる DP の変形と、前処理アルゴリズムの制限された感度という 2 つの新しい技術概念を利用して、全体的なプライバシー保証の上限を確立します。
汎用フレームワークに加えて、複数の DP アルゴリズムと組み合わせて使用​​する場合、データ代入、量子化、重複排除、PCA などの複数のデータ依存前処理アルゴリズムに対して明示的な全体的なプライバシー保証を提供します。
特に、このフレームワークは実装も簡単で、既存の DP パイプラインに直接統合できます。

要約(オリジナル)

When analysing Differentially Private (DP) machine learning pipelines, the potential privacy cost of data-dependent pre-processing is frequently overlooked in privacy accounting. In this work, we propose a general framework to evaluate the additional privacy cost incurred by non-private data-dependent pre-processing algorithms. Our framework establishes upper bounds on the overall privacy guarantees by utilising two new technical notions: a variant of DP termed Smooth DP and the bounded sensitivity of the pre-processing algorithms. In addition to the generic framework, we provide explicit overall privacy guarantees for multiple data-dependent pre-processing algorithms, such as data imputation, quantization, deduplication and PCA, when used in combination with several DP algorithms. Notably, this framework is also simple to implement, allowing direct integration into existing DP pipelines.

arxiv情報

著者 Yaxi Hu,Amartya Sanyal,Bernhard Schölkopf
発行日 2024-04-08 13:20:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.LG, stat.ML パーマリンク