MEDEC: A Benchmark for Medical Error Detection and Correction in Clinical Notes

要約

いくつかの研究では、大規模言語モデル (LLM) が医療質問に正確に回答でき、一部の医療検査では人間の平均スコアを上回ることが示されています。
しかし、私たちの知る限り、既存または生成された医療テキストの正確性と一貫性を検証する言語モデルの能力を評価する研究は行われていません。
この文書では、5 種類のエラー (診断、管理、治療、薬物療法、
および原因生物)。
MEDEC は 3,848 の臨床テキストで構成されており、その中には、これまで LLM では見られなかった米国の 3 つの病院システムからの 488 の臨床ノートが含まれています。
このデータセットは、17 の参加システムを評価するための MEDIQA-CORR 共有タスクに使用されています [Ben Abacha et al., 2024]。
この論文では、データ作成方法について説明し、医療知識と推論の両方を必要とする医療過誤の検出と修正のタスク用に、最近の LLM (o1-preview、GPT-4、Claude 3.5 Sonnet、Gemini 2.0 Flash など) を評価します。
能力。
また、2 人の医師が MEDEC テスト セットで同じタスクを実行する比較研究も実施しました。
結果は、MEDEC が、既存または生成されたメモを検証し、医療ミスを修正するモデルの能力を評価するのに十分に困難なベンチマークであることを示しました。
また、最近の LLM はエラー検出と修正において優れたパフォーマンスを発揮しますが、これらのタスクでは依然として医師のパフォーマンスを上回っていることもわかりました。
このギャップの背後にある潜在的な要因、実験からの洞察、現在の評価指標の限界について議論し、将来の研究への潜在的な指針を共有します。

要約(オリジナル)

Several studies showed that Large Language Models (LLMs) can answer medical questions correctly, even outperforming the average human score in some medical exams. However, to our knowledge, no study has been conducted to assess the ability of language models to validate existing or generated medical text for correctness and consistency. In this paper, we introduce MEDEC (https://github.com/abachaa/MEDEC), the first publicly available benchmark for medical error detection and correction in clinical notes, covering five types of errors (Diagnosis, Management, Treatment, Pharmacotherapy, and Causal Organism). MEDEC consists of 3,848 clinical texts, including 488 clinical notes from three US hospital systems that were not previously seen by any LLM. The dataset has been used for the MEDIQA-CORR shared task to evaluate seventeen participating systems [Ben Abacha et al., 2024]. In this paper, we describe the data creation methods and we evaluate recent LLMs (e.g., o1-preview, GPT-4, Claude 3.5 Sonnet, and Gemini 2.0 Flash) for the tasks of detecting and correcting medical errors requiring both medical knowledge and reasoning capabilities. We also conducted a comparative study where two medical doctors performed the same task on the MEDEC test set. The results showed that MEDEC is a sufficiently challenging benchmark to assess the ability of models to validate existing or generated notes and to correct medical errors. We also found that although recent LLMs have a good performance in error detection and correction, they are still outperformed by medical doctors in these tasks. We discuss the potential factors behind this gap, the insights from our experiments, the limitations of current evaluation metrics, and share potential pointers for future research.

arxiv情報

著者 Asma Ben Abacha,Wen-wai Yim,Yujuan Fu,Zhaoyi Sun,Meliha Yetisgen,Fei Xia,Thomas Lin
発行日 2025-01-02 18:46:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク