A Dataset for Addressing Patient’s Information Needs related to Clinical Course of Hospitalization

要約

患者は、電子健康記録(EHR)からの臨床的証拠を使用して対処できる入院に関する明確な情報ニーズを持っています。
人工知能(AI)システムは、これらのニーズを満たす際に有望であることを示していますが、AIに生成された応答の事実上の正確性と関連性を評価するには、堅牢なデータセットが必要です。
私たちの知る限り、既存のデータセットは、EHRのコンテキストで患者情報のニーズをキャプチャしません。
集中治療室および救急部門の設定からの実際の患者の症例に基づいて、専門家が解決したデータセットであるArchehr-Qaを紹介します。
この症例は、患者が公衆衛生フォーラムに提起した質問、臨床医が解釈したカウンターパート、関連する臨床ノートの抜粋を伴う文レベルの関連性の注釈を備えた臨床医が告発した質問で構成されています。
接地されたEHR質問応答(QA)のベンチマークを確立するために、3つのオープンウェイトの大手言語モデル(LLMS) – llama 4、llama 3、およびmixtral-across 3つのプロンプト戦略を評価しました。
2つの次元のパフォーマンスを評価しました:事実性(引用されたメモ文とグラウンドトゥルースの間の重複)と関連性(システムと参照の回答のテキストとセマンティックの類似性)。
最終データセットには、134の患者ケースが含まれています。
回答ファーストプロンプトアプローチは一貫して最高のパフォーマンスを発揮し、Llama 4は最高のスコアを達成しました。
手動エラー分析がこれらの発見をサポートし、省略した主要な臨床的証拠や矛盾または幻覚の内容などの一般的な問題を明らかにしました。
全体として、Archehr-QAは、患者中心のEHR QAシステムを開発および評価するための強力なベンチマークを提供し、臨床的文脈で事実と関連する反応を生成するためのさらなる進歩の必要性を強調しています。

要約(オリジナル)

Patients have distinct information needs about their hospitalization that can be addressed using clinical evidence from electronic health records (EHRs). While artificial intelligence (AI) systems show promise in meeting these needs, robust datasets are needed to evaluate the factual accuracy and relevance of AI-generated responses. To our knowledge, no existing dataset captures patient information needs in the context of their EHRs. We introduce ArchEHR-QA, an expert-annotated dataset based on real-world patient cases from intensive care unit and emergency department settings. The cases comprise questions posed by patients to public health forums, clinician-interpreted counterparts, relevant clinical note excerpts with sentence-level relevance annotations, and clinician-authored answers. To establish benchmarks for grounded EHR question answering (QA), we evaluated three open-weight large language models (LLMs)–Llama 4, Llama 3, and Mixtral–across three prompting strategies: generating (1) answers with citations to clinical note sentences, (2) answers before citations, and (3) answers from filtered citations. We assessed performance on two dimensions: Factuality (overlap between cited note sentences and ground truth) and Relevance (textual and semantic similarity between system and reference answers). The final dataset contains 134 patient cases. The answer-first prompting approach consistently performed best, with Llama 4 achieving the highest scores. Manual error analysis supported these findings and revealed common issues such as omitted key clinical evidence and contradictory or hallucinated content. Overall, ArchEHR-QA provides a strong benchmark for developing and evaluating patient-centered EHR QA systems, underscoring the need for further progress toward generating factual and relevant responses in clinical contexts.

arxiv情報

著者 Sarvesh Soni,Dina Demner-Fushman
発行日 2025-06-04 16:55:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク