Joint Selection: Adaptively Incorporating Public Information for Private Synthetic Data

要約

マージナルモデルとグラフィカルモデルに基づいて差分プライベート合成データを生成するメカニズムは、幅広い設定で成功しています。
ただし、これらの方法の制限の 1 つは、公開データを組み込むことができないことです。
公開データでの事前トレーニングによってデータ生成モデルを初期化すると、合成データの品質が向上することが示されていますが、この手法はモデル構造が事前に決定されていない場合には適用できません。
私たちは、適応型測定フレームワークを拡張して、公的データと私的データの測定を共同で選択するメカニズム jam-pgm を開発します。
この技術により、パブリック データをグラフィカル モデル ベースのメカニズムに含めることができます。
我々は、たとえ公的データの分布に偏りがある場合でも、jam-pgm が公的支援による合成データ生成メカニズムと公的支援を受けていない合成データ生成メカニズムの両方を上回るパフォーマンスを発揮できることを示します。

要約(オリジナル)

Mechanisms for generating differentially private synthetic data based on marginals and graphical models have been successful in a wide range of settings. However, one limitation of these methods is their inability to incorporate public data. Initializing a data generating model by pre-training on public data has shown to improve the quality of synthetic data, but this technique is not applicable when model structure is not determined a priori. We develop the mechanism jam-pgm, which expands the adaptive measurements framework to jointly select between measuring public data and private data. This technique allows for public data to be included in a graphical-model-based mechanism. We show that jam-pgm is able to outperform both publicly assisted and non publicly assisted synthetic data generation mechanisms even when the public data distribution is biased.

arxiv情報

著者 Miguel Fuentes,Brett Mullins,Ryan McKenna,Gerome Miklau,Daniel Sheldon
発行日 2024-03-12 16:34:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク