Bayesian Pseudo Posterior Mechanism for Differentially Private Machine Learning

要約

差別的なプライバシー(DP)は、モデルのトレーニングにデータを使用している個人のプライバシーを保護するための強力な保証を提供するため、展開された機械学習アプリケーションにとってますます重要になっています。
ただし、機械学習で一般的に使用されるDPメカニズムは、非常に不均衡または小さなラベル付きトレーニングセットなど、多くの現実世界分布に苦労する傾向があります。
この作業では、ランダム化メカニズムとしての開示リスクに比例して承認の尤度をダウンウェイトする擬似事後分布を使用することにより、深い学習モデルであるSWAG-PPMの新しいスケーラブルなDPメカニズムを提案します。
公式統計の動機付けの例として、米国の労働安全衛生管理局(OSHA)が発行した非常に不均衡なパブリックデータセットを使用して、職場の傷害テキスト分類タスクに関するSWAG-PPMを示します。
SWAG-PPMは、同様のプライバシー予算で業界標準のDP-SGDを大幅に上回る一方で、非プライベートコンパレータに対する控えめなユーティリティの劣化のみを示していることがわかります。

要約(オリジナル)

Differential privacy (DP) is becoming increasingly important for deployed machine learning applications because it provides strong guarantees for protecting the privacy of individuals whose data is used to train models. However, DP mechanisms commonly used in machine learning tend to struggle on many real world distributions, including highly imbalanced or small labeled training sets. In this work, we propose a new scalable DP mechanism for deep learning models, SWAG-PPM, by using a pseudo posterior distribution that downweights by-record likelihood contributions proportionally to their disclosure risks as the randomized mechanism. As a motivating example from official statistics, we demonstrate SWAG-PPM on a workplace injury text classification task using a highly imbalanced public dataset published by the U.S. Occupational Safety and Health Administration (OSHA). We find that SWAG-PPM exhibits only modest utility degradation against a non-private comparator while greatly outperforming the industry standard DP-SGD for a similar privacy budget.

arxiv情報

著者 Robert Chew,Matthew R. Williams,Elan A. Segarra,Alexander J. Preiss,Amanda Konet,Terrance D. Savitsky
発行日 2025-03-27 14:17:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG, stat.ML パーマリンク