Comparative Analysis of LSTM Neural Networks and Traditional Machine Learning Models for Predicting Diabetes Patient Readmission

要約

糖尿病は慢性代謝性疾患であり、その罹患率の高さと重篤な合併症の管理に多額の費用がかかるため、世界中で主要な健康問題の 1 つとして浮上しています。
効果的な管理には、良好な血糖コントロールとクリニックでの定期的なフォローアップが必要です。
ただし、予定されたフォローアップが遵守されないことは非常に一般的です。
この研究では、Diabetes 130-US Hospitals データセットを使用して、XGBoost、LightGBM、CatBoost、Decision Tree、Random Forest などのさまざまな従来の機械学習モデルによる再入院患者の分析と予測を行っています。また、社内の LSTM ニューラル ネットワークも使用しています。
比較。
データの品質は前処理によって保証され、これらすべてのモデルのパフォーマンス評価は精度、精度、再現率、および F1 スコアに基づいて行われました。
LightGBM が従来のモデルで最高であることが判明し、XGBoost が次点でした。
LSTM モデルは、トレーニング精度が高いにもかかわらず、過剰適合に悩まされました。
LSTM の主な利点は、患者データ間の時間的依存関係を捕捉できることです。
さらに、SHAP 値が使用され、モデルの解釈可能性が向上しました。これにより、再入院の予測において重要な要素として、検査手順の数と退院後の素因が特定されました。
この研究は、モデルの選択、検証、解釈可能性が予測医療モデリングにおける重要なステップであることを示しています。
これは、医療提供者がフォローアップ遵守を改善し、糖尿病をより適切に管理するための介入を設計するのに役立ちます。

要約(オリジナル)

Diabetes mellitus is a chronic metabolic disorder that has emerged as one of the major health problems worldwide due to its high prevalence and serious complications, which are pricey to manage. Effective management requires good glycemic control and regular follow-up in the clinic; however, non-adherence to scheduled follow-ups is very common. This study uses the Diabetes 130-US Hospitals dataset for analysis and prediction of readmission patients by various traditional machine learning models, such as XGBoost, LightGBM, CatBoost, Decision Tree, and Random Forest, and also uses an in-house LSTM neural network for comparison. The quality of the data was assured by preprocessing it, and the performance evaluation for all these models was based on accuracy, precision, recall, and F1-score. LightGBM turned out to be the best traditional model, while XGBoost was the runner-up. The LSTM model suffered from overfitting despite high training accuracy. A major strength of LSTM is capturing temporal dependencies among the patient data. Further, SHAP values were used, which improved model interpretability, whereby key factors among them number of lab procedures and discharge disposition were identified as critical in the prediction of readmissions. This study demonstrates that model selection, validation, and interpretability are key steps in predictive healthcare modeling. This will help health providers design interventions for improved follow-up adherence and better management of diabetes.

arxiv情報

著者 Abolfazl Zarghani
発行日 2024-06-28 15:06:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク