A density ratio framework for evaluating the utility of synthetic data

要約

合成データの生成は、プライバシー侵害のリスクを軽減しながら機密データの使用を促進する有望な技術です。
ただし、合成データが下流の分析タスクで役立つためには、十分な品質が必要です。
合成データの有用性を測定するためにさまざまな方法が提案されていますが、その結果は不完全であるか、誤解を招くことがよくあります。
この論文では、密度比推定を使用して合成データの品質評価を向上させ、それによって合成データセットの品質を向上させることを提案します。
私たちは、このフレームワークがどのように既存の尺度に関連し、その上に構築され、有益で解釈が容易なグローバルおよびローカルのユーティリティ尺度を生み出すかを示します。
ノンパラメトリック密度比モデルが自動的に選択されるため、手動調整をほとんどまたはまったく必要としない推定器を開発します。
シミュレーションを通じて、密度比推定の方が確立された手順よりも全体的な効用のより正確な推定が得られることがわかりました。
実際のデータ アプリケーションは、密度比がどのように合成モデルの改良を導き、下流の分析を改善するために使用できるかを示します。
私たちは、密度比の推定は合成データ生成ワークフローにおいて貴重なツールであると結論付け、これらの手法をアクセス可能なオープンソースの R パッケージ密度比で提供します。

要約(オリジナル)

Synthetic data generation is a promising technique to facilitate the use of sensitive data while mitigating the risk of privacy breaches. However, for synthetic data to be useful in downstream analysis tasks, it needs to be of sufficient quality. Various methods have been proposed to measure the utility of synthetic data, but their results are often incomplete or even misleading. In this paper, we propose using density ratio estimation to improve quality evaluation for synthetic data, and thereby the quality of synthesized datasets. We show how this framework relates to and builds on existing measures, yielding global and local utility measures that are informative and easy to interpret. We develop an estimator which requires little to no manual tuning due to automatic selection of a nonparametric density ratio model. Through simulations, we find that density ratio estimation yields more accurate estimates of global utility than established procedures. A real-world data application demonstrates how the density ratio can guide refinements of synthesis models and can be used to improve downstream analyses. We conclude that density ratio estimation is a valuable tool in synthetic data generation workflows and provide these methods in the accessible open source R-package densityratio.

arxiv情報

著者 Thom Benjamin Volker,Peter-Paul de Wolf,Erik-Jan van Kesteren
発行日 2024-08-23 15:39:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク