要約
心筋梗塞は世界的に死亡の主な原因となっており、患者の転帰を改善するには正確なリスク予測が不可欠です。
機械学習技術は、高リスク患者の特定と転帰の予測において有望であることが示されています。
ただし、患者データには膨大な量の情報と欠損値が含まれることが多く、特徴の選択と補完方法に課題が生じています。
この記事では、データ前処理タスクの影響を調査し、心筋梗塞患者の死亡リスクを予測するための 3 つのアンサンブル ブースト ツリー法を比較します。
さらに、Tree Shapley の加算的説明法を使用して、分析で利用可能なデータ全体を活用して、実行された予測のすべての特徴間の関係を特定します。
特に、私たちのアプローチは他の既存の機械学習アプローチと比較して優れたパフォーマンスを達成し、データ前処理なしの LightGBM の F1 スコアは 91.2%、精度は 91.8% でした。
要約(オリジナル)
Myocardial Infarction is a main cause of mortality globally, and accurate risk prediction is crucial for improving patient outcomes. Machine Learning techniques have shown promise in identifying high-risk patients and predicting outcomes. However, patient data often contain vast amounts of information and missing values, posing challenges for feature selection and imputation methods. In this article, we investigate the impact of the data preprocessing task and compare three ensembles boosted tree methods to predict the risk of mortality in patients with myocardial infarction. Further, we use the Tree Shapley Additive Explanations method to identify relationships among all the features for the performed predictions, leveraging the entirety of the available data in the analysis. Notably, our approach achieved a superior performance when compared to other existing machine learning approaches, with an F1-score of 91,2% and an accuracy of 91,8% for LightGBM without data preprocessing.
arxiv情報
著者 | Ana Letícia Garcez Vicente,Roseval Donisete Malaquias Junior,Roseli A. F. Romero |
発行日 | 2024-04-23 13:35:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google