要約
電子健康記録(EHR)の検索は、さまざまな臨床タスクで極めて重要な役割を果たしていますが、その開発は、公的に利用可能なベンチマークの欠如によって厳しく妨げられています。
この論文では、このギャップに対処するために、新しい公開EHR検索ベンチマークであるCliniqを紹介します。
2つの検索設定を検討します。単一患者の検索と多患者の検索を検討し、さまざまな現実世界のシナリオを反映しています。
単一患者の検索は、患者ノート内の関連部品を見つけることに焦点を当てていますが、多患者の検索には複数の患者からEHRを取得することが含まれます。
Mimic-IIIのICDコードと処方ラベルとともに、1,000の放電概要ノートにベンチマークを構築し、強力なLLMをアノテーターとしてさらに活用することにより、77,206の関連判断を伴う1,246の一意のクエリを収集します。
さらに、マッチングタイプを文字列マッチと4種類のセマンティックマッチに分類することにより、EHR検索のセマンティックギャップ問題の新しい評価を含めます。
提案されているベンチマークでは、従来の正確な一致から一般的な密なレトリバーに至るまで、さまざまな検索方法の包括的な評価を実施します。
私たちの実験では、BM25が強力なベースラインを設定し、密なレトリバーに競争力のあるパフォーマンスを発揮し、一般的なドメインの密なレトリーバーは驚くほど医療ドメイン向けに設計されたものよりも優れていることがわかります。
さまざまなマッチングタイプの詳細な分析により、さまざまな方法の強みと欠点が明らかになり、ターゲットの改善の可能性が啓発されます。
当社のベンチマークは、研究コミュニティを刺激してEHR検索システムを前進させると考えています。
要約(オリジナル)
Electronic Health Record (EHR) retrieval plays a pivotal role in various clinical tasks, but its development has been severely impeded by the lack of publicly available benchmarks. In this paper, we introduce a novel public EHR retrieval benchmark, CliniQ, to address this gap. We consider two retrieval settings: Single-Patient Retrieval and Multi-Patient Retrieval, reflecting various real-world scenarios. Single-Patient Retrieval focuses on finding relevant parts within a patient note, while Multi-Patient Retrieval involves retrieving EHRs from multiple patients. We build our benchmark upon 1,000 discharge summary notes along with the ICD codes and prescription labels from MIMIC-III, and collect 1,246 unique queries with 77,206 relevance judgments by further leveraging powerful LLMs as annotators. Additionally, we include a novel assessment of the semantic gap issue in EHR retrieval by categorizing matching types into string match and four types of semantic matches. On our proposed benchmark, we conduct a comprehensive evaluation of various retrieval methods, ranging from conventional exact match to popular dense retrievers. Our experiments find that BM25 sets a strong baseline and performs competitively to the dense retrievers, and general domain dense retrievers surprisingly outperform those designed for the medical domain. In-depth analyses on various matching types reveal the strengths and drawbacks of different methods, enlightening the potential for targeted improvement. We believe that our benchmark will stimulate the research communities to advance EHR retrieval systems.
arxiv情報
著者 | Zhengyun Zhao,Hongyi Yuan,Jingjing Liu,Haichao Chen,Huaiyuan Ying,Songchi Zhou,Yue Zhong,Sheng Yu |
発行日 | 2025-04-08 10:32:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google