MixEHR-SurG: a joint proportional hazard and guided topic model for inferring mortality-associated topics from electronic health records

要約

既存の生存モデルは、高次元のマルチモーダル データに対応していないか、解釈が困難です。
この研究では、異種 EHR データと生存ハザードのモデルを同時に統合する、MixEHR-SurG と呼ばれる教師付きトピック モデルを紹介します。
私たちの貢献は 3 つあります。(1) EHR トピック推論と Cox 比例ハザード尤度を統合する。
(2)PheCodeの概念を使用して患者固有のトピックのハイパーパラメータを統合し、各トピックを正確に1つのPheCode関連表現型で識別できるようにする。
(3) マルチモーダル生存トピック推論。
これにより、患者の死亡率に関連する PheCode 固有の表現型トピックを推測できる、高度に解釈可能な生存トピック モデルが得られます。
私たちは、シミュレートされたデータセットと 2 つの現実世界の EHR データセットを使用して MixEHR-SurG を評価しました。1 つは、1,767 の固有の ICD コードを持つ 75,187 件の外来請求記録を持つ 8,211 人の被験者で構成されるケベック州先天性心疾患 (CHD) データです。
MIMIC-III は、マルチモーダル EHR 記録を持つ 1,458 人の被験者で構成されます。
ベースラインと比較して、MixEHR-SurG は、シミュレーション データセットで 0.89 の平均 AUROC スコア、CHD データセットで 0.645 の平均 AUROC という、死亡率予測において優れた動的 AUROC を達成しました。
定性的に、MixEHR-SurG は、最初の心不全入院後の CHD 患者における重度の心疾患と高い死亡リスク、および ICU 退院後の MIMIC-III 患者における重篤な脳損傷と死亡率の増加を関連付けています。
MixEHR-SurG における Cox 比例ハザード モデルと EHR トピック推論の統合により、競合する死亡率予測だけでなく、詳細な生存分析に意味のある表現型トピックも得られます。
このソフトウェアは GitHub: https://github.com/li-lab-mcgill/MixEHR-SurG で入手できます。

要約(オリジナル)

Existing survival models either do not scale to high dimensional and multi-modal data or are difficult to interpret. In this study, we present a supervised topic model called MixEHR-SurG to simultaneously integrate heterogeneous EHR data and model survival hazard. Our contributions are three-folds: (1) integrating EHR topic inference with Cox proportional hazards likelihood; (2) integrating patient-specific topic hyperparameters using the PheCode concepts such that each topic can be identified with exactly one PheCode-associated phenotype; (3) multi-modal survival topic inference. This leads to a highly interpretable survival topic model that can infer PheCode-specific phenotype topics associated with patient mortality. We evaluated MixEHR-SurG using a simulated dataset and two real-world EHR datasets: the Quebec Congenital Heart Disease (CHD) data consisting of 8,211 subjects with 75,187 outpatient claim records of 1,767 unique ICD codes; the MIMIC-III consisting of 1,458 subjects with multi-modal EHR records. Compared to the baselines, MixEHR-SurG achieved a superior dynamic AUROC for mortality prediction, with a mean AUROC score of 0.89 in the simulation dataset and a mean AUROC of 0.645 on the CHD dataset. Qualitatively, MixEHR-SurG associates severe cardiac conditions with high mortality risk among the CHD patients after the first heart failure hospitalization and critical brain injuries with increased mortality among the MIMIC- III patients after their ICU discharge. Together, the integration of the Cox proportional hazards model and EHR topic inference in MixEHR-SurG not only leads to competitive mortality prediction but also meaningful phenotype topics for in-depth survival analysis. The software is available at GitHub: https://github.com/li-lab-mcgill/MixEHR-SurG.

arxiv情報

著者 Yixuan Li,Ariane Marelli,Archer Y. Yang,Yue Li
発行日 2024-03-08 13:29:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ME パーマリンク