Generating patient cohorts from electronic health records using two-step retrieval-augmented text-to-SQL generation

要約

臨床コホートの定義は、患者の募集と観察研究にとって重要ですが、包含/除外基準をSQLクエリに翻訳することは依然として困難でマニュアルです。
基準の解析、2レベルの検索拡張生成と専門知識ベース、医療概念の標準化、およびSQL生成を組み合わせた大規模な言語モデルを利用して、患者の漏斗との患者コホートを回収する自動化システムを提示します。
このシステムは、EHRデータのコホート識別で0.75 F1スコアを達成し、複雑な時間的および論理的な関係を効果的にキャプチャします。
これらの結果は、疫学研究のための自動コホート生成の実現可能性を示しています。

要約(オリジナル)

Clinical cohort definition is crucial for patient recruitment and observational studies, yet translating inclusion/exclusion criteria into SQL queries remains challenging and manual. We present an automated system utilizing large language models that combines criteria parsing, two-level retrieval augmented generation with specialized knowledge bases, medical concept standardization, and SQL generation to retrieve patient cohorts with patient funnels. The system achieves 0.75 F1-score in cohort identification on EHR data, effectively capturing complex temporal and logical relationships. These results demonstrate the feasibility of automated cohort generation for epidemiological research.

arxiv情報

著者 Angelo Ziletti,Leonardo D’Ambrosi
発行日 2025-02-28 14:46:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク