Data-Driven Machine Learning Approaches for Predicting In-Hospital Sepsis Mortality

要約

敗血症は、米国および世界中で多くの死亡原因となっている重篤な疾患であり、タイムリーで効果的な治療には転帰を正確に予測することが極めて重要です。
機械学習を利用したこれまでの研究では、特徴の選択とモデルの解釈に限界があり、臨床応用性が低下していました。
この研究は、院内敗血症死亡率を予測するための解釈可能で正確な機械学習モデルを開発し、これらのギャップに対処することを目的としていました。
MIMIC-III データベースの ICU 患者記録を使用して、文献レビュー、臨床入力の絞り込み、ランダム フォレスト ベースの特徴選択を組み合わせて関連データを抽出し、上位 35 の特徴を特定しました。
データの前処理には、クラスの不均衡に対処するためのクリーニング、代入、標準化、合成少数派オーバーサンプリング技術 (SMOTE) の適用が含まれ、その結果、17,429 件の入院を含む 4,683 人の患者のデータセットが得られました。
ランダム フォレスト、勾配ブースティング、ロジスティック回帰、サポート ベクター マシン、K 最近傍の 5 つのモデルが開発され、評価されました。
ランダム フォレスト モデルは最高のパフォーマンスを示し、精度 0.90、AUROC 0.97、精度 0.93、再現率 0.91、F1 スコア 0.92 を達成しました。
これらの発見は、データ駆動型の機械学習アプローチが救命医療を改善し、院内敗血症死亡率を予測し、患者の転帰を向上させるための強力なツールを臨床医に提供する可能性を強調しています。

要約(オリジナル)

Sepsis is a severe condition responsible for many deaths in the United States and worldwide, making accurate prediction of outcomes crucial for timely and effective treatment. Previous studies employing machine learning faced limitations in feature selection and model interpretability, reducing their clinical applicability. This research aimed to develop an interpretable and accurate machine learning model to predict in-hospital sepsis mortality, addressing these gaps. Using ICU patient records from the MIMIC-III database, we extracted relevant data through a combination of literature review, clinical input refinement, and Random Forest-based feature selection, identifying the top 35 features. Data preprocessing included cleaning, imputation, standardization, and applying the Synthetic Minority Over-sampling Technique (SMOTE) to address class imbalance, resulting in a dataset of 4,683 patients with 17,429 admissions. Five models-Random Forest, Gradient Boosting, Logistic Regression, Support Vector Machine, and K-Nearest Neighbor-were developed and evaluated. The Random Forest model demonstrated the best performance, achieving an accuracy of 0.90, AUROC of 0.97, precision of 0.93, recall of 0.91, and F1-score of 0.92. These findings underscore the potential of data-driven machine learning approaches to improve critical care, offering clinicians a powerful tool for predicting in-hospital sepsis mortality and enhancing patient outcomes.

arxiv情報

著者 Arseniy Shumilov,Yueting Zhu,Negin Ashrafi,Armin Abdollahi,Greg Placencia,Kamiar Alaei,Maryam Pishgar
発行日 2025-01-02 04:06:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク