Bounding the Excess Risk for Linear Models Trained on Marginal-Preserving, Differentially-Private, Synthetic Data

要約

機械学習 (ML) の使用の増加により、ML モデルによってトレーニング データセットに貢献した個人に関する個人情報が暴露される可能性があるという懸念が生じています。
機密データの漏洩を防ぐために、実際のトレーニング データの代わりに差分プライベート (DP) の合成トレーニング データを使用して ML モデルをトレーニングすることを検討します。
合成データの重要な望ましい特性は、元の分布の下位の限界を保存できることです。
私たちの主な貢献は、連続損失関数とリプシッツ損失関数について、そのような合成データに基づいてトレーニングされた線形モデルの過剰な経験的リスクに関する新しい上限と下限で構成されます。
私たちは理論的な結果と並行して広範な実験を実行します。

要約(オリジナル)

The growing use of machine learning (ML) has raised concerns that an ML model may reveal private information about an individual who has contributed to the training dataset. To prevent leakage of sensitive data, we consider using differentially-private (DP), synthetic training data instead of real training data to train an ML model. A key desirable property of synthetic data is its ability to preserve the low-order marginals of the original distribution. Our main contribution comprises novel upper and lower bounds on the excess empirical risk of linear models trained on such synthetic data, for continuous and Lipschitz loss functions. We perform extensive experimentation alongside our theoretical results.

arxiv情報

著者 Yvonne Zhou,Mingyu Liang,Ivan Brugere,Dana Dachman-Soled,Danial Dervovic,Antigoni Polychroniadou,Min Wu
発行日 2024-07-19 16:01:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG パーマリンク