emrQA-msquad: A Medical Dataset Structured with the SQuAD V2.0 Framework, Enriched with emrQA Medical Information


Machine Reading Comprehension (MRC) は、医療質問応答システム (QAS) を形成し、医療情報へのアクセスと適用の状況を変革する上で極めて重要な役割を果たします。
重要なソリューションの 1 つは、特殊な医療データセットを統合し、専用のデータセットを作成することです。
この戦略的アプローチにより QAS の精度が向上し、臨床上の意思決定と医学研究の進歩に貢献します。
医学用語の複雑さに対処するために、emrQA から派生した新しいスパン抽出データセットに代表される特殊なデータセットが統合されましたが、163,695 の質問と手動で取得された 4,136 の回答に再構成されました。この新しいデータセットは emrQA-msquad データセットと呼ばれました。
医療コンテキスト向けの BERT、RoBERTa、Tiny RoBERTa などのモデルの微調整により、0.75 ~ 1.00 の F1 スコア範囲内の応答精度が 10.1% ~ 37.4%、18.7% ~ 44.7%、および 16.0% ~ 46.8% と大幅に向上しました。
、 それぞれ。
最後に、emrQA-msquad データセットは https://huggingface.co/datasets/Eladio/emrqa-msquad で公開されています。


Machine Reading Comprehension (MRC) holds a pivotal role in shaping Medical Question Answering Systems (QAS) and transforming the landscape of accessing and applying medical information. However, the inherent challenges in the medical field, such as complex terminology and question ambiguity, necessitate innovative solutions. One key solution involves integrating specialized medical datasets and creating dedicated datasets. This strategic approach enhances the accuracy of QAS, contributing to advancements in clinical decision-making and medical research. To address the intricacies of medical terminology, a specialized dataset was integrated, exemplified by a novel Span extraction dataset derived from emrQA but restructured into 163,695 questions and 4,136 manually obtained answers, this new dataset was called emrQA-msquad dataset. Additionally, for ambiguous questions, a dedicated medical dataset for the Span extraction task was introduced, reinforcing the system’s robustness. The fine-tuning of models such as BERT, RoBERTa, and Tiny RoBERTa for medical contexts significantly improved response accuracy within the F1-score range of 0.75 to 1.00 from 10.1% to 37.4%, 18.7% to 44.7% and 16.0% to 46.8%, respectively. Finally, emrQA-msquad dataset is publicy available at https://huggingface.co/datasets/Eladio/emrqa-msquad.


著者 Jimenez Eladio,Hao Wu
発行日 2024-04-18 10:06:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク