Centralized and Federated Heart Disease Classification Models Using UCI Dataset and their Shapley-value Based Interpretability

要約

心血管疾患は世界中で主な死亡原因となっており、正確な診断方法の必要性が強調されています。
この研究では、米国、ハンガリー、スイスの 4 つの病院からの 920 人の患者記録を含む UCI データセットを使用して、心臓病分類のための集中型および連携型機械学習アルゴリズムのベンチマークを行います。
私たちのベンチマークは、分類における特徴の重要性を定量化するための Shapley 値解釈可能性分析によってサポートされています。
一元化されたセットアップでは、サポート ベクター マシン (SVM) によってプールされたデータでさまざまなバイナリ分類アルゴリズムがトレーニングされ、ロジスティック回帰で確立されたベンチマークの 78.7\% を上回る 83.3\% という最高のテスト精度を達成します。
さらに、データセットの自然な分割を利用して、精度を犠牲にすることなくプライバシーを強化する、4 つのクライアント (病院) による連合学習アルゴリズムが調査されています。
Federated SVM は文献では珍しいアプローチであり、73.8\% という最高のテスト精度を達成します。
私たちの解釈可能性分析は、心臓病指標に関する既存の医学的知識と一致しています。
全体として、この研究は、患者のプライバシーを維持しながら、心臓病の効率的で解釈可能な事前スクリーニングツールのベンチマークを確立します。
この成果は、https://github.com/padillma1/Heart-Disease-Classification-on-UCI-dataset-and-Shapley-Interpretability-Analysis で入手できます。

要約(オリジナル)

Cardiovascular diseases are a leading cause of mortality worldwide, highlighting the need for accurate diagnostic methods. This study benchmarks centralized and federated machine learning algorithms for heart disease classification using the UCI dataset which includes 920 patient records from four hospitals in the USA, Hungary and Switzerland. Our benchmark is supported by Shapley-value interpretability analysis to quantify features’ importance for classification. In the centralized setup, various binary classification algorithms are trained on pooled data, with a support vector machine (SVM) achieving the highest testing accuracy of 83.3\%, surpassing the established benchmark of 78.7\% with logistic regression. Additionally, federated learning algorithms with four clients (hospitals) are explored, leveraging the dataset’s natural partition to enhance privacy without sacrificing accuracy. Federated SVM, an uncommon approach in the literature, achieves a top testing accuracy of 73.8\%. Our interpretability analysis aligns with existing medical knowledge of heart disease indicators. Overall, this study establishes a benchmark for efficient and interpretable pre-screening tools for heart disease while maintaining patients’ privacy. This work is available at https://github.com/padillma1/Heart-Disease-Classification-on-UCI-dataset-and-Shapley-Interpretability-Analysis.

arxiv情報

著者 Mario Padilla Rodriguez,Mohamed Nafea
発行日 2024-08-16 14:59:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク