Distributed Conditional GAN (discGAN) For Synthetic Healthcare Data Generation



– この論文では、保健分野に特化した合成表形式データを生成するために、分散型生成敵対ネットワーク(discGANs)を提案しています。
– GANsを使用して画像を生成することはよく研究されていますが、表形式のデータの生成にはほとんど注目されていませんでした。
– 離散的で連続的な表形式のデータの分布をモデル化することは、高いユーティリティを持つ非自明なタスクです。
– discGANを使用して非ガウス多峰性の保健データをモデル化しました。
– 2,027のeICUデータセットから、249,000の合成レコードを生成しました。
– 機械学習の有効性、連続変数のKolmogorov-Smirnov(KS)テスト、および離散変数のカイ二乗検定を使用してモデルのパフォーマンスを評価しました。
– 結果は、discGANが実際のデータと似た分布を持つデータを生成することができたことを示しています。


In this paper, we propose a distributed Generative Adversarial Networks (discGANs) to generate synthetic tabular data specific to the healthcare domain. While using GANs to generate images has been well studied, little to no attention has been given to generation of tabular data. Modeling distributions of discrete and continuous tabular data is a non-trivial task with high utility. We applied discGAN to model non-Gaussian multi-modal healthcare data. We generated 249,000 synthetic records from original 2,027 eICU dataset. We evaluated the performance of the model using machine learning efficacy, the Kolmogorov-Smirnov (KS) test for continuous variables and chi-squared test for discrete variables. Our results show that discGAN was able to generate data with distributions similar to the real data.


著者 David Fuentes,Diana McSpadden,Sodiq Adewole
発行日 2023-04-09 18:35:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.LG パーマリンク