Can Copulas Be Used for Feature Selection? A Machine Learning Study on Diabetes Risk Prediction

要約

正確な糖尿病のリスク予測は、複雑な健康データセットからの主要な機能の特定に依存していますが、相互情報(MI)フィルターや遺伝的アルゴリズム(GAS)などの従来の方法は、多くの場合、高リスクの亜集団に重要な極端な依存関係を見落としています。
この研究では、新規A2コピュラの上限依存性係数({\ lambda} u)を使用して機能選択フレームワークを紹介します。
CDC糖尿病の健康指標データセット(n = 253,680)に適用されたこの方法は、上部尾の依存関係に基づいて5つの予測因子(自己報告の一般的な健康、高血圧、モビリティの制限、高コレステロールレベル)を優先します。
これらの機能は、4つの分類器(ランダムフォレスト、xgboost、ロジスティック回帰、勾配ブースト)でMIおよびGAを選択したサブセットに一致またはアウトパフォームし、最大86.5%(xgboost)とAUC(勾配ブースト)までの精度を達成し、21フィーチャーモデル全体に​​匹敵します。
順列の重要性は、BMIと一般的な健康駆動の精度により、臨床的関連性を確認します。
私たちの知る限り、これは監視された機能選択のためにコピュラの上限依存を適用し、極度の価値理論を埋め、糖尿病予防のための実用的なツールキットを提供するための機械学習を適用した最初の作業です。

要約(オリジナル)

Accurate diabetes risk prediction relies on identifying key features from complex health datasets, but conventional methods like mutual information (MI) filters and genetic algorithms (GAs) often overlook extreme dependencies critical for high-risk subpopulations. In this study we introduce a feature-selection framework using the upper-tail dependence coefficient ({\lambda}U) of the novel A2 copula, which quantifies how often extreme higher values of a predictor co-occur with diabetes diagnoses (target variable). Applied to the CDC Diabetes Health Indicators dataset (n=253,680), our method prioritizes five predictors (self-reported general health, high blood pressure, body mass index, mobility limitations, and high cholesterol levels) based on upper tail dependencies. These features match or outperform MI and GA selected subsets across four classifiers (Random Forest, XGBoost, Logistic Regression, Gradient Boosting), achieving accuracy up to 86.5% (XGBoost) and AUC up to 0.806 (Gradient Boosting), rivaling the full 21-feature model. Permutation importance confirms clinical relevance, with BMI and general health driving accuracy. To our knowledge, this is the first work to apply a copula’s upper-tail dependence for supervised feature selection, bridging extreme-value theory and machine learning to deliver a practical toolkit for diabetes prevention.

arxiv情報

著者 Agnideep Aich,Md Monzur Murshed,Amanda Mayeaux,Sameera Hewage
発行日 2025-05-28 16:34:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 62H05, 62H12, 62P10, 68T07, cs.LG, stat.ML パーマリンク