Collaborative Synthesis of Patient Records through Multi-Visit Health State Inference


電子医療記録 (EHR) は医療における機械学習アプリケーションの基盤となっていますが、実際の患者記録の有用性はプライバシーやセキュリティ上の懸念により制限されることがよくあります。
合成 EHR 生成は、この制限を補うための追加の観点を提供します。
既存の手法のほとんどは、EHR データ内のさまざまな種類のイベントを考慮せずに、実際の EHR データに基づいて新しいレコードを合成するため、医学的常識に沿ってイベントの組み合わせを制御できません。
この論文では、これらの制限に対処するために、共同 EHR 合成のための複数訪問健康状態推論モデルである MSIC を提案します。
まず、合成 EHR 生成プロセスを確率的グラフィカル モデルとして定式化し、潜在的な健康状態をモデル化することでさまざまな種類のイベントを密接に結び付けます。
さらに、各医療イベントにテキストによる説明を追加する医療レポートを生成し、合成された EHR データの幅広い用途を提供することを提案します。
各訪問で異なる段落を生成するために、複数のジェネレーターのメッセージ パッシングを連携させるマルチジェネレーター審議フレームワークを組み込み、2 フェーズのデコード戦略を採用して高品質のレポートを生成します。
広く使用されているベンチマークである MIMIC-III および MIMIC-IV に関する広範な実験は、MSIC がプライバシー リスクを低く抑えながら、合成データの品質に関する最先端の結果を進歩させていることを実証しています。


Electronic health records (EHRs) have become the foundation of machine learning applications in healthcare, while the utility of real patient records is often limited by privacy and security concerns. Synthetic EHR generation provides an additional perspective to compensate for this limitation. Most existing methods synthesize new records based on real EHR data, without consideration of different types of events in EHR data, which cannot control the event combinations in line with medical common sense. In this paper, we propose MSIC, a Multi-visit health Status Inference model for Collaborative EHR synthesis to address these limitations. First, we formulate the synthetic EHR generation process as a probabilistic graphical model and tightly connect different types of events by modeling the latent health states. Then, we derive a health state inference method tailored for the multi-visit scenario to effectively utilize previous records to synthesize current and future records. Furthermore, we propose to generate medical reports to add textual descriptions for each medical event, providing broader applications for synthesized EHR data. For generating different paragraphs in each visit, we incorporate a multi-generator deliberation framework to collaborate the message passing of multiple generators and employ a two-phase decoding strategy to generate high-quality reports. Our extensive experiments on the widely used benchmarks, MIMIC-III and MIMIC-IV, demonstrate that MSIC advances state-of-the-art results on the quality of synthetic data while maintaining low privacy risks.


著者 Hongda Sun,Hongzhan Lin,Rui Yan
発行日 2023-12-22 12:28:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク