Extraction of Sleep Information from Clinical Notes of Patients with Alzheimer’s Disease Using Natural Language Processing

要約

アルツハイマー病 (AD) は、米国で最も一般的な認知症の形態です。
睡眠は、高齢者の最適な認知機能にとって重要であることが示されているライフスタイル関連要因の 1 つです。
しかし、睡眠とアルツハイマー病の発症との関連を研究した研究は不足しています。
このような研究を実施する際の大きなボトルネックは、睡眠情報を取得する従来の方法は時間がかかり、非効率的で拡張性がなく、患者の主観的な経験に限定されていることです。
ゴールド スタンダード データセットは、ピッツバーグ大学医療センター (UPMC) から取得した 7,266 人の AD 患者の匿名化された 192,000 件の臨床メモのコーパスである adSLEEP からランダムにサンプリングされた 570 件の臨床メモ文書の手動アノテーションから作成されます。
私たちは、ルールベースの自然言語処理 (NLP) アルゴリズム、機械学習モデル、大規模言語モデル (LLM) ベースの NLP アルゴリズムを開発し、いびき、昼寝、睡眠の問題、睡眠の質の悪さを含む睡眠関連の概念の抽出を自動化しました。
、日中の眠気、夜間の目覚め、睡眠時間(ゴールド スタンダード データセットから)。
ルールベースの NLP アルゴリズムは、睡眠関連のすべての概念にわたって F1 の最高のパフォーマンスを達成しました。
陽性的中率 (PPV) に関しては、ルールベースの NLP アルゴリズムは日中の眠気と睡眠時間で 1.00、機械学習モデルでは昼寝で 0.95、睡眠の質の悪さで 0.86、いびきで 0.90 を達成しました。
微調整を施した LLAMA2 では、夜間覚醒で 0.93、睡眠障害で 0.89、睡眠時間で 1.00 の PPV を達成しました。
結果は、ルールベースの NLP アルゴリズムがすべての睡眠概念に対して一貫して最高のパフォーマンスを達成したことを示しています。
この研究はアルツハイマー病患者の臨床記録に焦点を当てていますが、他の病気の一般的な睡眠情報の抽出にも拡張できる可能性があります。

要約(オリジナル)

Alzheimer’s Disease (AD) is the most common form of dementia in the United States. Sleep is one of the lifestyle-related factors that has been shown critical for optimal cognitive function in old age. However, there is a lack of research studying the association between sleep and AD incidence. A major bottleneck for conducting such research is that the traditional way to acquire sleep information is time-consuming, inefficient, non-scalable, and limited to patients’ subjective experience. A gold standard dataset is created from manual annotation of 570 randomly sampled clinical note documents from the adSLEEP, a corpus of 192,000 de-identified clinical notes of 7,266 AD patients retrieved from the University of Pittsburgh Medical Center (UPMC). We developed a rule-based Natural Language Processing (NLP) algorithm, machine learning models, and Large Language Model(LLM)-based NLP algorithms to automate the extraction of sleep-related concepts, including snoring, napping, sleep problem, bad sleep quality, daytime sleepiness, night wakings, and sleep duration, from the gold standard dataset. Rule-based NLP algorithm achieved the best performance of F1 across all sleep-related concepts. In terms of Positive Predictive Value (PPV), rule-based NLP algorithm achieved 1.00 for daytime sleepiness and sleep duration, machine learning models: 0.95 and for napping, 0.86 for bad sleep quality and 0.90 for snoring; and LLAMA2 with finetuning achieved PPV of 0.93 for Night Wakings, 0.89 for sleep problem, and 1.00 for sleep duration. The results show that the rule-based NLP algorithm consistently achieved the best performance for all sleep concepts. This study focused on the clinical notes of patients with AD, but could be extended to general sleep information extraction for other diseases.

arxiv情報

著者 Sonish Sivarajkumar,Thomas Yu CHow Tam,Haneef Ahamed Mohammad,Samual Viggiano,David Oniani,Shyam Visweswaran,Yanshan Wang
発行日 2024-03-15 17:59:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク