合成データの生成に深層生成モデル (DGM) を使用すると、合成データの分析にかなりの偏りや不正確さが生じ、元のデータ分析とは対照的に推論の有用性が損なわれることが知られています。
このような推定量の標準誤差は、典型的な 1 over root-$n$ 率よりもサンプル サイズに応じて緩やかに縮小します。
これにより、p 値や信頼区間などの基本的な計算が複雑になり、現在利用できる簡単な解決策はありません。
これらの課題に応えて、私たちは特定のデータ分析のために DGM によって作成された合成データをターゲットとする新しい戦略を提案します。
玩具データに関するシミュレーション研究と実世界データに関する 2 つのケーススタディを通じて私たちの提案を例示し、ターゲットを絞ったデータ分析に合わせて DGM を調整することの重要性を強調します。
While synthetic data hold great promise for privacy protection, their statistical analysis poses significant challenges that necessitate innovative solutions. The use of deep generative models (DGMs) for synthetic data generation is known to induce considerable bias and imprecision into synthetic data analyses, compromising their inferential utility as opposed to original data analyses. This bias and uncertainty can be substantial enough to impede statistical convergence rates, even in seemingly straightforward analyses like mean calculation. The standard errors of such estimators then exhibit slower shrinkage with sample size than the typical 1 over root-$n$ rate. This complicates fundamental calculations like p-values and confidence intervals, with no straightforward remedy currently available. In response to these challenges, we propose a new strategy that targets synthetic data created by DGMs for specific data analyses. Drawing insights from debiased and targeted machine learning, our approach accounts for biases, enhances convergence rates, and facilitates the calculation of estimators with easily approximated large sample variances. We exemplify our proposal through a simulation study on toy data and two case studies on real-world data, highlighting the importance of tailoring DGMs for targeted data analysis. This debiasing strategy contributes to advancing the reliability and applicability of synthetic data in statistical inference.
著者 | Alexander Decruyenaere,Heidelinde Dehaene,Paloma Rabaey,Christiaan Polet,Johan Decruyenaere,Thomas Demeester,Stijn Vansteelandt |
発行日 | 2025-01-15 17:47:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google