PMC-Patients: A Large-scale Dataset of Patient Summaries and Relations for Benchmarking Retrieval-based Clinical Decision Support Systems

要約

タイトル:PMC-Patients:ベンチマーク化された検索ベースの臨床判断支援システム用の患者要約と関係の大規模データセット

要約:

– 検索ベースの臨床判断支援(ReCDS)は、与えられた患者に適した文献と類似した患者を提供することにより、臨床ワークフローを支援することができます。
– ReCDSシステムの開発は、多様な患者コレクションや公開された大規模な患者レベルの注釈データセットの不足によって重大な障害がありました。
– この論文では、PMC-Patientsと呼ばれる新しいデータセットを使用して、2つのReCDSタスク:患者-記事リトリーバル(ReCDS-PAR)と患者-患者リトリーバル(ReCDS-PPR)を定義し、ベンチマーク化しようとします。
– PMC-Patientsは、PubMed Central記事から簡単なヒューリスティックスを使用して患者の要約を抽出し、PubMed引用グラフを利用して患者-記事の関連性と患者-患者の類似性を定義します。
– PMC-Patientsには、167,000件の患者の要約、3.1M件の患者-記事の関連性注釈、293,000件の患者-患者の類似性注釈が含まれています。これは、ReCDSのための最大規模のリソースであり、また最大の患者コレクションの1つでもあります。
– 人間による評価と分析により、PMC-Patientsが多様なデータセットであり、高品質な注釈がされていることが示されています。
– 様々なReCDSシステムの評価により、PMC-Patientsベンチマークは課題があり、さらなる研究が必要であると示唆しています。
– PMC-Patientsは、最大規模の患者レベルの関係注釈を持つ大規模で多様な公開データセットであり、ReCDSシステムの方法論研究を大幅に容易にし、現実世界での臨床的有用性を示します。

要約(オリジナル)

Objective: Retrieval-based Clinical Decision Support (ReCDS) can aid clinical workflow by providing relevant literature and similar patients for a given patient. However, the development of ReCDS systems has been severely obstructed by the lack of diverse patient collections and publicly available large-scale patient-level annotation datasets. In this paper, we aim to define and benchmark two ReCDS tasks: Patient-to-Article Retrieval (ReCDS-PAR) and Patient-to-Patient Retrieval (ReCDS-PPR) using a novel dataset called PMC-Patients. Methods: We extract patient summaries from PubMed Central articles using simple heuristics and utilize the PubMed citation graph to define patient-article relevance and patient-patient similarity. We also implement and evaluate several ReCDS systems on the PMC-Patients benchmarks, including sparse retrievers, dense retrievers, and nearest neighbor retrievers. We conduct several case studies to show the clinical utility of PMC-Patients. Results: PMC-Patients contains 167k patient summaries with 3.1M patient-article relevance annotations and 293k patient-patient similarity annotations, which is the largest-scale resource for ReCDS and also one of the largest patient collections. Human evaluation and analysis show that PMC-Patients is a diverse dataset with high-quality annotations. The evaluation of various ReCDS systems shows that the PMC-Patients benchmark is challenging and calls for further research. Conclusion: We present PMC-Patients, a large-scale, diverse, and publicly available patient summary dataset with the largest-scale patient-level relation annotations. Based on PMC-Patients, we formally define two benchmark tasks for ReCDS systems and evaluate various existing retrieval methods. PMC-Patients can largely facilitate methodology research on ReCDS systems and shows real-world clinical utility.

arxiv情報

著者 Zhengyun Zhao,Qiao Jin,Fangyuan Chen,Tuorui Peng,Sheng Yu
発行日 2023-04-19 03:24:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL, cs.IR パーマリンク