Comparison of static and dynamic random forests models for EHR data in the presence of competing risks: predicting central line-associated bloodstream infection

要約

入院に関連する予後結果は通常、打ち切りの影響を受けず、カテゴリまたはイベント発生までの時間としてモデル化できます。
競合イベントは一般的ですが、無視されることがよくあります。
私たちは、さまざまな結果の操作化を使用して中心線関連血流感染症 (CLABSI) のリスクを予測するために、ランダム フォレスト (RF) モデルのパフォーマンスを比較しました。
ルーヴェン大学病院への入院 27,478 件のデータを組み込み、カテーテル エピソード 30,862 件(CLABSI 970 件、死亡 1,466 件、退院 28,426 件)をカバーし、二項(CLABSI 対 CLABSI なし)、多項(CLABSI、退院、死亡、または
イベントなし)、生存(CLABSIまでの時間)、競合リスク(CLABSIまでの時間、退院または死亡)の結果を考慮して、7日間のCLABSIリスクを予測します。
100 回のトレーニング/テスト分割にわたってモデルのパフォーマンスを評価しました。
二値、多項および競合リスク モデルのパフォーマンスは同様でした。AUROC は、ベースライン予測では 0.74 でしたが、カテーテル エピソードの 5 日目の予測では 0.78 に上昇し、その後減少しました。
生存モデルは CLABSI のリスクを過大評価し (E:O 比 1.2 ~ 1.6)、AUROC は他のモデルより約 0.01 低かった。
二項モデルと多項モデルの計算時間が最も短くなりました。
複数の結果イベント (多項リスクと競合リスク) を含むモデルは、二値モデルや生存モデルと比較して異なる内部構造を示します。
打ち切りがない場合、複雑なモデリングを選択しても、研究した設定における CLABSI 予測のバイナリ モデルと比較して、予測パフォーマンスは大幅に向上しません。
競合するイベントを発生時に検閲する生存モデルは避けるべきです。

要約(オリジナル)

Prognostic outcomes related to hospital admissions typically do not suffer from censoring, and can be modeled either categorically or as time-to-event. Competing events are common but often ignored. We compared the performance of random forest (RF) models to predict the risk of central line-associated bloodstream infections (CLABSI) using different outcome operationalizations. We included data from 27478 admissions to the University Hospitals Leuven, covering 30862 catheter episodes (970 CLABSI, 1466 deaths and 28426 discharges) to build static and dynamic RF models for binary (CLABSI vs no CLABSI), multinomial (CLABSI, discharge, death or no event), survival (time to CLABSI) and competing risks (time to CLABSI, discharge or death) outcomes to predict the 7-day CLABSI risk. We evaluated model performance across 100 train/test splits. Performance of binary, multinomial and competing risks models was similar: AUROC was 0.74 for baseline predictions, rose to 0.78 for predictions at day 5 in the catheter episode, and decreased thereafter. Survival models overestimated the risk of CLABSI (E:O ratios between 1.2 and 1.6), and had AUROCs about 0.01 lower than other models. Binary and multinomial models had lowest computation times. Models including multiple outcome events (multinomial and competing risks) display a different internal structure compared to binary and survival models. In the absence of censoring, complex modelling choices do not considerably improve the predictive performance compared to a binary model for CLABSI prediction in our studied settings. Survival models censoring the competing events at their time of occurrence should be avoided.

arxiv情報

著者 Elena Albu,Shan Gao,Pieter Stijnen,Frank Rademakers,Christel Janssens,Veerle Cossey,Yves Debaveye,Laure Wynants,Ben Van Calster
発行日 2024-05-24 16:43:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク