要約
世界中で、心血管疾患の既往の有無にかかわらず、毎年何百万人もの人々が突然、予期せず亡くなっています。
このような出来事はまれであり(一生に一度)、多くの犠牲者は事前に心疾患の検査を受けておらず、突然死にはさまざまな定義が存在します。
したがって、突然死を予測することは困難です。
この分析では、2010 年にグラスゴー・クライド都市圏 (GG\&C) 地域に住む $\geq$50 歳の人々 (n = 380,000) を対象に、NHS 電子医療記録 (EHR) を使用して、これらの課題を克服しようとしました。
私たちは、病歴、血液検査、薬の処方、入院が組み合わさって突然死のリスクの上昇を予測する可能性があるかどうかを調査しました。
私たちは、突然死または全死因死亡を予測するために訓練されたモデルのパフォーマンスを比較しました。
私たちは、関心のある結果ごとに 6 つのモデルを構築しました。そのうちの 3 つは最先端の研究 (BEHRT、Deepr、Deep Patient) から取得したもので、残りの 3 つは私たちが独自に作成したものです。
私たちは、言語ベースの表現とスパース時間行列という 2 つの異なるデータ表現を使用してこれらをトレーニングしました。
私たちはグローバルな解釈可能性を使用して各モデルの最も重要な特徴を理解し、ランク バイアス オーバーラップを使用してモデル間の一致度を比較しました。
解釈可能性手法の複雑さを増すことなく、相関変数を考慮することは困難です。
私たちは、機能をグループにクラスタリングし、モデルごとに最も重要なグループを比較することでこの問題を解決しました。
相関変数を考慮すると、モデル間の一致度がはるかに高くなることがわかりました。
私たちの分析では、突然死を予測するという課題を強調し、医療アプリケーションに適用される機械学習モデルをよりよく理解して解釈する必要性を強調しています。
要約(オリジナル)
Worldwide, many millions of people die suddenly and unexpectedly each year, either with or without a prior history of cardiovascular disease. Such events are sparse (once in a lifetime), many victims will not have had prior investigations for cardiac disease and many different definitions of sudden death exist. Accordingly, sudden death is hard to predict. This analysis used NHS Electronic Health Records (EHRs) for people aged $\geq$50 years living in the Greater Glasgow and Clyde (GG\&C) region in 2010 (n = 380,000) to try to overcome these challenges. We investigated whether medical history, blood tests, prescription of medicines, and hospitalisations might, in combination, predict a heightened risk of sudden death. We compared the performance of models trained to predict either sudden death or all-cause mortality. We built six models for each outcome of interest: three taken from state-of-the-art research (BEHRT, Deepr and Deep Patient), and three of our own creation. We trained these using two different data representations: a language-based representation, and a sparse temporal matrix. We used global interpretability to understand the most important features of each model, and compare how much agreement there was amongst models using Rank Biased Overlap. It is challenging to account for correlated variables without increasing the complexity of the interpretability technique. We overcame this by clustering features into groups and comparing the most important groups for each model. We found the agreement between models to be much higher when accounting for correlated variables. Our analysis emphasises the challenge of predicting sudden death and emphasises the need for better understanding and interpretation of machine learning models applied to healthcare applications.
arxiv情報
著者 | Dr Yola Jones,Dr Fani Deligianni,Dr Jeff Dalton,Dr Pierpaolo Pellicori,Professor John G F Cleland |
発行日 | 2023-08-30 14:44:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google