Early Prediction of Alzheimers Disease Leveraging Symptom Occurrences from Longitudinal Electronic Health Records of US Military Veterans

要約

アルツハイマー病 (AD) の早期予測は、タイムリーな介入と治療にとって非常に重要です。
この研究は、機械学習アプローチを使用して、アルツハイマー病患者の長期にわたる電子健康記録 (EHR) を分析し、アルツハイマー病の発症を早期に予測できる兆候や症状を特定することを目的としています。
我々は、2004年から2021年まで米国退役軍人省退役軍人保健局(VHA)からの縦断的EHRを用いた症例対照計画を使用した。症例は、ICD-10-CMコードに基づいて2016年1月1日以降に診断されたADのVHA患者であり、年齢、性別、および置換による臨床利用により対照と1:9で一致した。
我々は、4 つの機械学習モデルによる AD 予測の予測因子として、AD 関連キーワードのパネルと患者の縦断的 EHR におけるそれらの長期出現を使用しました。
年齢、性別、人種/民族ごとにサブグループ分析を実行し、ホールドアウトおよび「未確認」VHA ステーション グループでモデルを検証しました。
モデルの識別、キャリブレーション、およびその他の関連指標は、ICD に基づく診断の最大 10 年前までの予測のために報告されました。
研究対象集団には、16,701 人の症例と 39,097 人の対応する対照が含まれていました。
AD関連キーワード(「集中力」、「スピーキング」など)の年間平均数は、診断が近づくにつれて症例では約10から40以上に急速に増加したが、対照では10で横ばいとなった。
最良のモデルは、ICD ベースの診断の少なくとも 10 年前のデータを使用した予測で高い識別精度 (ROCAUC 0.997) を達成しました。
このモデルは適切に校正されており (Hosmer-Lemeshow 適合度 p 値 = 0.99)、65 歳未満の患者を除いて、年齢、性別、人種/民族のサブグループ全体で一貫していました (ROCAUC 0.746)。
EHR メモから特定された AD 関連のキーワードを使用した機械学習モデルは、将来の AD 診断を予測でき、EHR メモを使用して AD リスクを特定するための潜在的な用途を示唆し、大規模な集団を早期にスクリーニングするための手頃な方法を提供します。

要約(オリジナル)

Early prediction of Alzheimer’s disease (AD) is crucial for timely intervention and treatment. This study aims to use machine learning approaches to analyze longitudinal electronic health records (EHRs) of patients with AD and identify signs and symptoms that can predict AD onset earlier. We used a case-control design with longitudinal EHRs from the U.S. Department of Veterans Affairs Veterans Health Administration (VHA) from 2004 to 2021. Cases were VHA patients with AD diagnosed after 1/1/2016 based on ICD-10-CM codes, matched 1:9 with controls by age, sex and clinical utilization with replacement. We used a panel of AD-related keywords and their occurrences over time in a patient’s longitudinal EHRs as predictors for AD prediction with four machine learning models. We performed subgroup analyses by age, sex, and race/ethnicity, and validated the model in a hold-out and ‘unseen’ VHA stations group. Model discrimination, calibration, and other relevant metrics were reported for predictions up to ten years before ICD-based diagnosis. The study population included 16,701 cases and 39,097 matched controls. The average number of AD-related keywords (e.g., ‘concentration’, ‘speaking’) per year increased rapidly for cases as diagnosis approached, from around 10 to over 40, while remaining flat at 10 for controls. The best model achieved high discriminative accuracy (ROCAUC 0.997) for predictions using data from at least ten years before ICD-based diagnoses. The model was well-calibrated (Hosmer-Lemeshow goodness-of-fit p-value = 0.99) and consistent across subgroups of age, sex and race/ethnicity, except for patients younger than 65 (ROCAUC 0.746). Machine learning models using AD-related keywords identified from EHR notes can predict future AD diagnoses, suggesting its potential use for identifying AD risk using EHR notes, offering an affordable way for early screening on large population.

arxiv情報

著者 Rumeng Li,Xun Wang,Dan Berlowitz,Brian Silver,Wen Hu,Heather Keating,Raelene Goodwin,Weisong Liu,Honghuang Lin,Hong Yu
発行日 2023-07-23 16:38:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク