Towards Understanding the Generalization of Medical Text-to-SQL Models and Datasets

要約

電子医療記録 (EMR) は、リレーショナル データベースに格納されます。
ユーザーがデータベース スキーマや一般的なデータベースの基礎に慣れていない場合、必要な情報にアクセスするのは難しい場合があります。
したがって、研究者は、医療専門家がデータベースの専門家を必要とせずに EMR データに直接アクセスできるようにするテキストから SQL への生成方法を検討してきました。
ただし、現在利用可能なデータセットは、最先端のモデルで本質的に「解決」されており、90% 以上またはほぼ 90% の精度を達成しています。
このホワイト ペーパーでは、医療分野でテキストから SQL への生成を解決するには、まだ長い道のりがあることを示しています。
これを示すために、既存の医療テキストから SQL へのデータセット MIMICSQL の新しい分割を作成し、結果のモデルの一般化可能性をより適切に測定します。
新しい分割で最先端の言語モデルを評価すると、パフォーマンスが大幅に低下し、精度が最大 92% から 28% に低下しており、大幅な改善の余地があることが示されています。
さらに、言語モデルの一般化可能性を向上させるために、新しいデータ拡張アプローチを導入します。
全体として、この論文は、医療分野でより堅牢なテキストから SQL へのモデルを開発するための最初のステップです。\footnote{データセットとコードは、承認され次第リリースされます。

要約(オリジナル)

Electronic medical records (EMRs) are stored in relational databases. It can be challenging to access the required information if the user is unfamiliar with the database schema or general database fundamentals. Hence, researchers have explored text-to-SQL generation methods that provide healthcare professionals direct access to EMR data without needing a database expert. However, currently available datasets have been essentially ‘solved’ with state-of-the-art models achieving accuracy greater than or near 90%. In this paper, we show that there is still a long way to go before solving text-to-SQL generation in the medical domain. To show this, we create new splits of the existing medical text-to-SQL dataset MIMICSQL that better measure the generalizability of the resulting models. We evaluate state-of-the-art language models on our new split showing substantial drops in performance with accuracy dropping from up to 92% to 28%, thus showing substantial room for improvement. Moreover, we introduce a novel data augmentation approach to improve the generalizability of the language models. Overall, this paper is the first step towards developing more robust text-to-SQL models in the medical domain.\footnote{The dataset and code will be released upon acceptance.

arxiv情報

著者 Richard Tarbell,Kim-Kwang Raymond Choo,Glenn Dietrich,Anthony Rios
発行日 2023-03-22 20:26:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク