要約
機械学習 (ML) モデルは、トレーニング データセットから個人情報を漏洩することがわかっています。
差分プライバシー (DP) は、通常、差分プライベート確率的勾配降下アルゴリズム (DP-SGD) を通じて実装され、モデルからの限界リークに対する標準ソリューションとなっています。
最近の改善にもかかわらず、プライベート学習のための DP-SGD ベースのアプローチは、通常、高いプライバシー ($\varepsilon\le1)$ と低データ体制、およびプライベート トレーニング データセットの不均衡がある場合には依然として困難を伴います。
これらの制限を克服するために、私たちはプライベート転移学習の新しいパラダイムとして、差分プライベート プロトタイプ学習 (DPPL) を提案します。
DPPL は、公的に事前トレーニングされたエンコーダーを活用してプライベート データから特徴を抽出し、埋め込み空間内の各プライベート クラスを表す DP プロトタイプを生成し、推論用に公的にリリースできます。
私たちの DP プロトタイプは、少数のプライベート トレーニング データ ポイントのみから取得でき、反復的なノイズの追加を行わないため、 \textit{pure DP} の概念の下でも、実用性の高い予測と強力なプライバシー保証を提供します。
さらに、エンコーダーの事前トレーニングを超えて公開データを活用すると、プライバシーとユーティリティのトレードオフがさらに改善できることも示します。特に、エンコーダーのトレーニングに使用された公開データ ポイントから DP プロトタイプを非公開でサンプリングできます。
4 つの最先端のエンコーダー、4 つの視覚データセットを使用し、さまざまなデータと不均衡レジームの下での実験評価は、困難なプライベート学習設定における強力なプライバシー保証の下での DPPL の高いパフォーマンスを実証しています。
要約(オリジナル)
Machine learning (ML) models have been shown to leak private information from their training datasets. Differential Privacy (DP), typically implemented through the differential private stochastic gradient descent algorithm (DP-SGD), has become the standard solution to bound leakage from the models. Despite recent improvements, DP-SGD-based approaches for private learning still usually struggle in the high privacy ($\varepsilon\le1)$ and low data regimes, and when the private training datasets are imbalanced. To overcome these limitations, we propose Differentially Private Prototype Learning (DPPL) as a new paradigm for private transfer learning. DPPL leverages publicly pre-trained encoders to extract features from private data and generates DP prototypes that represent each private class in the embedding space and can be publicly released for inference. Since our DP prototypes can be obtained from only a few private training data points and without iterative noise addition, they offer high-utility predictions and strong privacy guarantees even under the notion of \textit{pure DP}. We additionally show that privacy-utility trade-offs can be further improved when leveraging the public data beyond pre-training of the encoder: in particular, we can privately sample our DP prototypes from the publicly available data points used to train the encoder. Our experimental evaluation with four state-of-the-art encoders, four vision datasets, and under different data and imbalancedness regimes demonstrate DPPL’s high performance under strong privacy guarantees in challenging private learning setups
arxiv情報
著者 | Dariush Wahdany,Matthew Jagielski,Adam Dziedzic,Franziska Boenisch |
発行日 | 2024-12-16 18:28:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google