Guided Discrete Diffusion for Electronic Health Record Generation

要約

電子医療記録 (EHR) は、病気の進行予測、臨床試験の設計、医療経済とアウトカムの研究など、計算医学における数多くの応用を可能にする極めて重要なデータ ソースです。
幅広い使いやすさにもかかわらず、その機密性の高い性質によりプライバシーと機密性の懸念が生じ、潜在的な使用例が制限されます。
これらの課題に取り組むために、私たちは生成モデルを使用して人工的でありながら現実的な EHR を合成することを検討しています。
拡散ベースの手法は最近、他のデータ モダリティの生成において最先端のパフォーマンスを実証し、以前の GAN ベースのアプローチを悩ませていたトレーニングの不安定性やモード崩壊の問題を克服しましたが、EHR 生成におけるそのアプリケーションはまだ研究されていません。
EHR の表形式の医療コード データは離散的であるため、高品質のデータ生成、特に連続拡散モデルの場合に課題が生じます。
この目的を達成するために、離散拡散モデルを使用して無条件生成と条件付き生成の両方を可能にする新しい表形式 EHR 生成方法 EHR-D3PM を導入します。
私たちの実験では、EHR-D3PM が、メンバーシップの脆弱性リスクを低く抑えながら、包括的な忠実度およびユーティリティの指標において既存の生成ベースラインを大幅に上回るパフォーマンスを示していることが実証されています。
さらに、EHR-D3PM がデータ拡張手法として効果的であり、実際のデータと組み合わせると下流タスクのパフォーマンスが向上することを示します。

要約(オリジナル)

Electronic health records (EHRs) are a pivotal data source that enables numerous applications in computational medicine, e.g., disease progression prediction, clinical trial design, and health economics and outcomes research. Despite wide usability, their sensitive nature raises privacy and confidentially concerns, which limit potential use cases. To tackle these challenges, we explore the use of generative models to synthesize artificial, yet realistic EHRs. While diffusion-based methods have recently demonstrated state-of-the-art performance in generating other data modalities and overcome the training instability and mode collapse issues that plague previous GAN-based approaches, their applications in EHR generation remain underexplored. The discrete nature of tabular medical code data in EHRs poses challenges for high-quality data generation, especially for continuous diffusion models. To this end, we introduce a novel tabular EHR generation method, EHR-D3PM, which enables both unconditional and conditional generation using the discrete diffusion model. Our experiments demonstrate that EHR-D3PM significantly outperforms existing generative baselines on comprehensive fidelity and utility metrics while maintaining less membership vulnerability risks. Furthermore, we show EHR-D3PM is effective as a data augmentation method and enhances performance on downstream tasks when combined with real data.

arxiv情報

著者 Zixiang Chen,Jun Han,Yongqian Li,Yiwen Kou,Eran Halperin,Robert E. Tillman,Quanquan Gu
発行日 2024-04-18 16:50:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク