要約
生成 AI の最近の進歩により、強力なプライバシー保証を提供しながら、AI モデルをトレーニングし、統計的洞察を強化し、機密データセットとのコラボレーションを促進するための実世界のデータと同じくらい正確な合成データセットを作成できるようになりました。
合成データの経験的プライバシーを効果的に測定することは、プロセスにおける重要なステップです。
ただし、毎日多数の新しいプライバシー指標が公開されていますが、現時点では標準化されていません。
このペーパーでは、敵対的攻撃のシミュレーションを含む一般的なメトリクスの長所と短所をレビューします。
また、生成モデルを修正して、作成されるデータのプライバシー (差分プライバシーなど) を強化するための現在のベスト プラクティスもレビューします。
要約(オリジナル)
Recent advancements in generative AI have made it possible to create synthetic datasets that can be as accurate as real-world data for training AI models, powering statistical insights, and fostering collaboration with sensitive datasets while offering strong privacy guarantees. Effectively measuring the empirical privacy of synthetic data is an important step in the process. However, while there is a multitude of new privacy metrics being published every day, there currently is no standardization. In this paper, we review the pros and cons of popular metrics that include simulations of adversarial attacks. We also review current best practices for amending generative models to enhance the privacy of the data they create (e.g. differential privacy).
arxiv情報
著者 | Amy Steier,Lipika Ramaswamy,Andre Manoel,Alexa Haushalter |
発行日 | 2025-01-07 17:02:33+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google