Enhancing Metabolic Syndrome Prediction with Hybrid Data Balancing and Counterfactuals

要約

メタボリックシンドローム(METS)は、心血管疾患と2型糖尿病のリスクを大幅に増加させる相互に関連する危険因子のクラスターです。
その世界的な有病率にもかかわらず、MetSの正確な予測は、既存の研究における階級の不均衡、データの希少性、方法論的な矛盾などの問題のために依然として挑戦的です。
このホワイトペーパーでは、METS予測の機械学習(ML)モデルを体系的に評価および最適化し、高度なデータバランス技術と反事実分析を活用することにより、これらの課題に対処します。
Xgboost、ランダムフォレスト、TabNetなどを含む複数のMLモデルを、ランダムオーバーサンプリング(ROS)、Smote、Adasyn、CTGANなどのさまざまなデータバランスの手法で訓練および比較しました。
さらに、Smote、Adasyn、およびCTGANを統合する新しいハイブリッドフレームワークであるMetaboostを紹介し、重みのある平均化と反復重量調整を通じて合成データ生成を最適化して、モデルのパフォーマンスを向上させます(個々のバランス技術よりも1.14%の精度の向上を達成します)。
包括的な反事実分析が行われ、個人が高リスクから低リスクのカテゴリにシフトするために必要な機能レベルの変更を定量化します。
結果は、血糖(50.3%)とトリグリセリド(46.7%)が最も頻繁に修正された特徴であり、METSのリスク低下における臨床的意義を強調したことを示しています。
さらに、確率的分析では、血糖値の上昇(85.5%の尤度)とトリグリセリド(74.9%の事後確率)が最も強力な予測因子として示されています。
この研究は、METSの予測の方法論的な厳密さを進めるだけでなく、臨床医と研究者に実用的な洞察を提供し、メタボリックシンドロームの公衆衛生負担を軽減するMLの可能性を強調しています。

要約(オリジナル)

Metabolic Syndrome (MetS) is a cluster of interrelated risk factors that significantly increases the risk of cardiovascular diseases and type 2 diabetes. Despite its global prevalence, accurate prediction of MetS remains challenging due to issues such as class imbalance, data scarcity, and methodological inconsistencies in existing studies. In this paper, we address these challenges by systematically evaluating and optimizing machine learning (ML) models for MetS prediction, leveraging advanced data balancing techniques and counterfactual analysis. Multiple ML models, including XGBoost, Random Forest, TabNet, etc., were trained and compared under various data balancing techniques such as random oversampling (ROS), SMOTE, ADASYN, and CTGAN. Additionally, we introduce MetaBoost, a novel hybrid framework that integrates SMOTE, ADASYN, and CTGAN, optimizing synthetic data generation through weighted averaging and iterative weight tuning to enhance the model’s performance (achieving a 1.14% accuracy improvement over individual balancing techniques). A comprehensive counterfactual analysis is conducted to quantify feature-level changes required to shift individuals from high-risk to low-risk categories. The results indicate that blood glucose (50.3%) and triglycerides (46.7%) were the most frequently modified features, highlighting their clinical significance in MetS risk reduction. Additionally, probabilistic analysis shows elevated blood glucose (85.5% likelihood) and triglycerides (74.9% posterior probability) as the strongest predictors. This study not only advances the methodological rigor of MetS prediction but also provides actionable insights for clinicians and researchers, highlighting the potential of ML in mitigating the public health burden of metabolic syndrome.

arxiv情報

著者 Sanyam Paresh Shah,Abdullah Mamun,Shovito Barua Soumma,Hassan Ghasemzadeh
発行日 2025-04-09 15:51:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク