Synthesizing Mixed-type Electronic Health Records using Diffusion Models


電子医療記録 (EHR) には機密の患者情報が含まれており、そのようなデータを共有するとプライバシーの問題が生じます。
合成データの生成は、これらのリスクを軽減する有望なソリューションであり、多くの場合、敵対的生成ネットワーク (GAN) などの深い生成モデルに依存します。
ただし、最近の研究では、拡散モデルには、より現実的な合成データの生成や、画像、テキスト、音声などのデータ モダリティの生成における安定したトレーニングなど、GAN に比べていくつかの利点があることが示されています。
この研究では、データ品質、ユーティリティ、プライバシー、拡張の観点から、TabDDPM モデルと 4 つのデータセットの既存の手法を比較し、現実的な混合タイプの表形式 EHR を生成するための拡散モデルの可能性を調査します。
私たちの実験では、TabDDPM がプライバシーを除くすべての評価指標で最先端のモデルよりも優れていることが実証されており、プライバシーと実用性のトレードオフが確認されています。


Electronic Health Records (EHRs) contain sensitive patient information, which presents privacy concerns when sharing such data. Synthetic data generation is a promising solution to mitigate these risks, often relying on deep generative models such as Generative Adversarial Networks (GANs). However, recent studies have shown that diffusion models offer several advantages over GANs, such as generation of more realistic synthetic data and stable training in generating data modalities, including image, text, and sound. In this work, we investigate the potential of diffusion models for generating realistic mixed-type tabular EHRs, comparing TabDDPM model with existing methods on four datasets in terms of data quality, utility, privacy, and augmentation. Our experiments demonstrate that TabDDPM outperforms the state-of-the-art models across all evaluation metrics, except for privacy, which confirms the trade-off between privacy and utility.


著者 Taha Ceritli,Ghadeer O. Ghosheh,Vinod Kumar Chauhan,Tingting Zhu,Andrew P. Creagh,David A. Clifton
発行日 2023-08-10 16:46:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CL, cs.LG パーマリンク