EHRSQL: A Practical Text-to-SQL Benchmark for Electronic Health Records

要約

電子医療記録 (EHR) 用の新しいテキストから SQL へのデータセットを紹介します。
発言は、医師、看護師、保険審査および健康記録チームを含む病院スタッフ 222 名から収集されました。
構造化された EHR データに基づいて QA データセットを構築するために、大学病院でアンケートを実施し、その回答を使用してシード質問を作成しました。
次に、これらの質問を 2 つのオープンソース EHR データベース、MIMIC-III と eICU に手動でリンクし、データセットにさまざまな時間表現と答えられない質問を含めました。これらも世論調査から収集されました。
私たちのデータセットは一連の独特の課題を提起しています。モデルは 1) 単純な検索や生存率の計算などの複雑な操作を含む、病院内の幅広いニーズを反映する SQL クエリを生成する、2) 時間を回答するためのさまざまな時間表現を理解する必要があります。
-医療におけるデリケートな質問、および 3) 特定の質問が答えられるか答えられないかを区別します。
私たちは、当社のデータセットである EHRSQL が、構造化された EHR データの QA モデルを開発および評価するための実用的なベンチマークとして機能し、テキストから SQL への研究と医療における実際の展開との間のギャップを埋めることに向けてさらに一歩前進できると信じています。
EHRSQL は https://github.com/glee4810/EHRSQL で入手できます。

要約(オリジナル)

We present a new text-to-SQL dataset for electronic health records (EHRs). The utterances were collected from 222 hospital staff members, including physicians, nurses, and insurance review and health records teams. To construct the QA dataset on structured EHR data, we conducted a poll at a university hospital and used the responses to create seed questions. We then manually linked these questions to two open-source EHR databases, MIMIC-III and eICU, and included various time expressions and held-out unanswerable questions in the dataset, which were also collected from the poll. Our dataset poses a unique set of challenges: the model needs to 1) generate SQL queries that reflect a wide range of needs in the hospital, including simple retrieval and complex operations such as calculating survival rate, 2) understand various time expressions to answer time-sensitive questions in healthcare, and 3) distinguish whether a given question is answerable or unanswerable. We believe our dataset, EHRSQL, can serve as a practical benchmark for developing and assessing QA models on structured EHR data and take a step further towards bridging the gap between text-to-SQL research and its real-life deployment in healthcare. EHRSQL is available at https://github.com/glee4810/EHRSQL.

arxiv情報

著者 Gyubok Lee,Hyeonji Hwang,Seongsu Bae,Yeonsu Kwon,Woncheol Shin,Seongjun Yang,Minjoon Seo,Jong-Yeup Kim,Edward Choi
発行日 2023-06-28 15:16:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク