LeafAI: query generator for clinical cohort discovery rivaling a human programmer

要約

目的: 臨床データベース内で研究に適格な患者を特定することは、臨床研究において重要なステップです。
ただし、正確なクエリ設計には通常、広範な技術的および生物医学的な専門知識が必要です。
私たちは、データ モデルに依存しないクエリを生成できると同時に、複雑な臨床試験の適格基準に対する新しい論理的推論機能も提供できるシステムの作成を目指しました。
材料と方法: 適格性基準からクエリを作成するタスクでは、名前付きエンティティの認識と関係抽出、シーケンスからシーケンスへの変換、正規化、推論など、いくつかのテキスト処理の問題を解決する必要があります。
これらには、ハイブリッド深層学習とルールベースのモジュールに加え、統一医療言語システム (UMLS) の知識ベースとリンクされたオントロジーが組み込まれています。
データ モデルに依存しないクエリの作成を可能にするために、UMLS の概念を使用してデータベース スキーマ要素にタグを付けるための新しい方法を導入します。
LeafAI と呼ばれる私たちのシステムを評価するために、私たちは LeafAI の機能を人間のデータベース プログラマーと比較し、私たちの施設で実施された 8 つの臨床試験に登録された患者を識別しました。
生成されたクエリと一致する実際の登録患者の数によってパフォーマンスを測定しました。
結果: LeafAI は、8 つの臨床試験全体で登録患者の平均 43% と適格な 27,225 人を一致させたのに対し、人間のデータベース プログラマーによるクエリでは 27% が一致し、14,587 人が適格でした。
人間のプログラマーはクエリの作成に合計 26 時間を費やしましたが、LeafAI の場合は数分でした。
結論: 私たちの研究は、知識ベースを使用した条件付き推論が可能な、データ モデルに依存しない最先端のクエリ生成システムに貢献します。
私たちは、臨床試験の対象となる患者を見つける点で、LeafAI が経験豊富な人間のプログラマーに匹敵することを実証します。

要約(オリジナル)

Objective: Identifying study-eligible patients within clinical databases is a critical step in clinical research. However, accurate query design typically requires extensive technical and biomedical expertise. We sought to create a system capable of generating data model-agnostic queries while also providing novel logical reasoning capabilities for complex clinical trial eligibility criteria. Materials and Methods: The task of query creation from eligibility criteria requires solving several text-processing problems, including named entity recognition and relation extraction, sequence-to-sequence transformation, normalization, and reasoning. We incorporated hybrid deep learning and rule-based modules for these, as well as a knowledge base of the Unified Medical Language System (UMLS) and linked ontologies. To enable data-model agnostic query creation, we introduce a novel method for tagging database schema elements using UMLS concepts. To evaluate our system, called LeafAI, we compared the capability of LeafAI to a human database programmer to identify patients who had been enrolled in 8 clinical trials conducted at our institution. We measured performance by the number of actual enrolled patients matched by generated queries. Results: LeafAI matched a mean 43% of enrolled patients with 27,225 eligible across 8 clinical trials, compared to 27% matched and 14,587 eligible in queries by a human database programmer. The human programmer spent 26 total hours crafting queries compared to several minutes by LeafAI. Conclusions: Our work contributes a state-of-the-art data model-agnostic query generation system capable of conditional reasoning using a knowledge base. We demonstrate that LeafAI can rival an experienced human programmer in finding patients eligible for clinical trials.

arxiv情報

著者 Nicholas J Dobbins,Bin Han,Weipeng Zhou,Kristine Lan,H. Nina Kim,Robert Harrington,Ozlem Uzuner,Meliha Yetisgen
発行日 2023-08-14 18:45:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク