Retrieval augmented text-to-SQL generation for epidemiological question answering using electronic health records

要約

電子医療記録 (EHR) と請求データは、患者の健康状態と医療の利用状況を反映する現実世界のデータの豊富なソースです。
疫学的な質問に答えるためにこれらのデータベースにクエリを実行することは、医学用語が複雑であり、複雑な SQL クエリが必要であるため、困難です。
ここでは、テキストから SQL への生成と検索拡張生成 (RAG) を組み合わせて、EHR と請求データを使用して疫学的な疑問に答えるエンドツーエンドの方法論を紹介します。
テキストから SQL へのプロセスに医療コーディングのステップを統合する私たちのアプローチは、単純なプロンプトよりもパフォーマンスが大幅に向上することを示します。
私たちの調査結果は、現在の言語モデルは教師なしで使用するにはまだ十分に正確ではありませんが、現実的な業界環境で示されているように、RAG がその機能を改善するための有望な方向性を提供していることを示しています。

要約(オリジナル)

Electronic health records (EHR) and claims data are rich sources of real-world data that reflect patient health status and healthcare utilization. Querying these databases to answer epidemiological questions is challenging due to the intricacy of medical terminology and the need for complex SQL queries. Here, we introduce an end-to-end methodology that combines text-to-SQL generation with retrieval augmented generation (RAG) to answer epidemiological questions using EHR and claims data. We show that our approach, which integrates a medical coding step into the text-to-SQL process, significantly improves the performance over simple prompting. Our findings indicate that although current language models are not yet sufficiently accurate for unsupervised use, RAG offers a promising direction for improving their capabilities, as shown in a realistic industry setting.

arxiv情報

著者 Angelo Ziletti,Leonardo D’Ambrosi
発行日 2024-05-16 13:00:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク