要約
病気の予後における臨床変数の重要性は、統計的相関や機械学習(ML)を用いて説明される。しかし、これらの変数の予測的重要性は、疾患との因果関係を表していない可能性がある。本論文では、心不全(HF)患者コホートからの臨床変数を用いて、統計的およびMLの文脈で得られた重要な変数の因果関係説明可能性を調査する。一般的な因果関係発見手法では、回帰モデリングという性質上、原因変数と結果変数が数値的かつ連続的であることを厳密に仮定している。本論文では、因果構造発見(CSD)を可能にし、バイナリ疾患結果に対する混合型(カテゴリー、数値、バイナリ)臨床変数の因果強度をスコア化する新しい計算フレームワークを提案する。HF分類において、3種類の特徴(相関特徴、ML予測に重要な特徴、因果的特徴)の重要度順位間の関連を調査する。その結果、非線形な因果関係に対するCSDモデリングは、線形なものよりも有意義であることが示された。非線形分類器(例えば、勾配ブースティング木)から得られる特徴の重要度は、原因変数と結果変数を区別することなく、変数の因果強度と強く相関する。相関のある変数はHFの原因となりうるが、効果変数として識別されることはほとんどない。これらの結果は、MLベースの予測モデリングに重要な変数の因果説明を追加するために使用できる。
要約(オリジナル)
The importance of clinical variables in the prognosis of the disease is explained using statistical correlation or machine learning (ML). However, the predictive importance of these variables may not represent their causal relationships with diseases. This paper uses clinical variables from a heart failure (HF) patient cohort to investigate the causal explainability of important variables obtained in statistical and ML contexts. Due to inherent regression modeling, popular causal discovery methods strictly assume that the cause and effect variables are numerical and continuous. This paper proposes a new computational framework to enable causal structure discovery (CSD) and score the causal strength of mixed-type (categorical, numerical, binary) clinical variables for binary disease outcomes. In HF classification, we investigate the association between the importance rank order of three feature types: correlated features, features important for ML predictions, and causal features. Our results demonstrate that CSD modeling for nonlinear causal relationships is more meaningful than its linear counterparts. Feature importance obtained from nonlinear classifiers (e.g., gradient-boosting trees) strongly correlates with the causal strength of variables without differentiating cause and effect variables. Correlated variables can be causal for HF, but they are rarely identified as effect variables. These results can be used to add the causal explanation of variables important for ML-based prediction modeling.
arxiv情報
著者 | Yina Hou,Shourav B. Rabbani,Liang Hong,Norou Diawara,Manar D. Samad |
発行日 | 2025-06-03 16:46:13+00:00 |
arxivサイト | arxiv_id(pdf) |