要約
電子医療記録 (EHR) には患者の機密情報が含まれており、そのようなデータを共有する際にプライバシーの問題が生じます。
合成データ生成は、これらのリスクを軽減するための有望なソリューションであり、多くの場合、Generative Adversarial Networks (GAN) などの深い生成モデルに依存しています。
ただし、最近の研究では、拡散モデルが GAN よりもいくつかの利点を提供することが示されています。たとえば、より現実的な合成データの生成や、画像、テキスト、音声などのデータ モダリティの生成における安定したトレーニングなどです。
この作業では、現実的な混合タイプの表形式 EHR を生成するための拡散モデルの可能性を調査し、データ品質、ユーティリティ、プライバシー、拡張の観点から、TabDDPM モデルを 4 つのデータセットの既存の方法と比較します。
私たちの実験では、TabDDPM がプライバシーを除くすべての評価指標で最先端のモデルよりも優れていることが実証されており、プライバシーとユーティリティの間のトレードオフが確認されています。
要約(オリジナル)
Electronic Health Records (EHRs) contain sensitive patient information, which presents privacy concerns when sharing such data. Synthetic data generation is a promising solution to mitigate these risks, often relying on deep generative models such as Generative Adversarial Networks (GANs). However, recent studies have shown that diffusion models offer several advantages over GANs, such as generation of more realistic synthetic data and stable training in generating data modalities, including image, text, and sound. In this work, we investigate the potential of diffusion models for generating realistic mixed-type tabular EHRs, comparing TabDDPM model with existing methods on four datasets in terms of data quality, utility, privacy, and augmentation. Our experiments demonstrate that TabDDPM outperforms the state-of-the-art models across all evaluation metrics, except for privacy, which confirms the trade-off between privacy and utility.
arxiv情報
著者 | Taha Ceritli,Ghadeer O. Ghosheh,Vinod Kumar Chauhan,Tingting Zhu,Andrew P. Creagh,David A. Clifton |
発行日 | 2023-02-28 15:42:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google