Understanding how Differentially Private Generative Models Spend their Privacy Budget

要約

Differential Privacy (DP) でトレーニングされた生成モデルは、プライバシー リスクを軽減しながら合成データを生成するために使用されることが増えています。
特定のプライバシーとユーティリティのトレードオフを考慮すると、特定の設定/タスクに最適なモデルを判断することが困難になります。
この論文では、おそらくユーティリティ低下の主な原因であるプライバシー予算を DP 生成モデルが行と列にどのように配分するかを分析することで、表形式データのコンテキストでこのギャップを埋めます。
私たちは、基礎となるモデリング技術、DP メカニズム、データの次元など、プライバシー予算がどのように使われるかに寄与する主な要因を調査します。
グラフィカル生成モデルとディープ生成モデルの両方を広範に評価することで、モデルをさまざまな設定やタスクに適したものにする特有の機能が明らかになります。
グラフィカル モデルはプライバシー バジェットを水平に分散するため、比較的幅広いデータセットを処理できない一方で、最適化されたタスクのパフォーマンスはデータが増えるにつれて単調に増加することを示します。
ディープ生成モデルは反復ごとに予算を消費するため、データセットのディメンションが変化すると動作の予測が難しくなりますが、より多くの特徴でトレーニングすればパフォーマンスが向上する可能性があります。
また、低レベルのプライバシー ($\epsilon\geq100$) は、一部のモデルの一般化に役立ち、DP を適用しない場合よりも優れた結果を達成できる可能性があります。

要約(オリジナル)

Generative models trained with Differential Privacy (DP) are increasingly used to produce synthetic data while reducing privacy risks. Navigating their specific privacy-utility tradeoffs makes it challenging to determine which models would work best for specific settings/tasks. In this paper, we fill this gap in the context of tabular data by analyzing how DP generative models distribute privacy budgets across rows and columns, arguably the main source of utility degradation. We examine the main factors contributing to how privacy budgets are spent, including underlying modeling techniques, DP mechanisms, and data dimensionality. Our extensive evaluation of both graphical and deep generative models sheds light on the distinctive features that render them suitable for different settings and tasks. We show that graphical models distribute the privacy budget horizontally and thus cannot handle relatively wide datasets while the performance on the task they were optimized for monotonically increases with more data. Deep generative models spend their budget per iteration, so their behavior is less predictable with varying dataset dimensions but could perform better if trained on more features. Also, low levels of privacy ($\epsilon\geq100$) could help some models generalize, achieving better results than without applying DP.

arxiv情報

著者 Georgi Ganev,Kai Xu,Emiliano De Cristofaro
発行日 2023-05-18 14:14:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG パーマリンク