要約
疫学的環境では、機械学習(ML)は、仮説のないリスク(または保護)要因の発見の人気を獲得しています。
MLは非線形性と相互作用を発見するのに強いものの、この力は現在、信頼できる推論の欠如によって損なわれています。
特徴効果の局所的な測定値は木のアンサンブルと組み合わせることができますが、これらの測定の不確実性の定量化は部分的にのみ入手可能であり、しばしば不十分です。
RuleShapを提案します。これは、個々のレベルで複雑なパターンを検出およびテストする1段階の手順で、まばらなベイジアン回帰、ツリーアンサンブル、およびシャプリーの値を組み合わせたルールベースの仮説のない発見を使用するためのフレームワークを提案します。
計算を容易にするために、設定によりわずかなShapley値をより効率的に計算する式を導き出します。
シミュレートされたデータに関するフレームワークの妥当性を示します。
説明するために、疫学コホートのデータに機械を適用して、年齢、性別、民族、BMI、グルコースレベルなどの特徴間の非線形相互作用効果など、高コレステロールと血圧のいくつかの効果を検出および推測します。
要約(オリジナル)
In epidemiological settings, Machine Learning (ML) is gaining popularity for hypothesis-free discovery of risk (or protective) factors. Although ML is strong at discovering non-linearities and interactions, this power is currently compromised by a lack of reliable inference. Although local measures of feature effect can be combined with tree ensembles, uncertainty quantifications for these measures remain only partially available and oftentimes unsatisfactory. We propose RuleSHAP, a framework for using rule-based, hypothesis-free discovery that combines sparse Bayesian regression, tree ensembles and Shapley values in a one-step procedure that both detects and tests complex patterns at the individual level. To ease computation, we derive a formula that computes marginal Shapley values more efficiently for our setting. We demonstrate the validity of our framework on simulated data. To illustrate, we apply our machinery to data from an epidemiological cohort to detect and infer several effects for high cholesterol and blood pressure, such as nonlinear interaction effects between features like age, sex, ethnicity, BMI and glucose level.
arxiv情報
著者 | Giorgio Spadaccini,Marjolein Fokkema,Mark A. van de Wiel |
発行日 | 2025-05-01 14:55:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google