要約
医療コンセプトの質問応答専用のオープンソース ベンチマークである MedConceptsQA を紹介します。
このベンチマークは、診断、処置、薬剤など、さまざまな語彙にわたるさまざまな医療概念に関する質問で構成されています。
問題は、簡単、中、難しいの 3 つの難易度に分類されています。
さまざまな大規模言語モデルを使用してベンチマークの評価を実施しました。
私たちの調査結果は、事前トレーニングされた臨床大規模言語モデルが、医療データに基づいて事前トレーニングされているにもかかわらず、このベンチマークでランダムな推測に近い精度レベルを達成したことを示しています。
ただし、GPT-4 は、臨床大規模言語モデルと比較した場合、絶対平均でほぼ 27% ~ 37% (ゼロショット学習で 27%、少数ショット学習で 37%) の向上を達成します。
私たちのベンチマークは、大規模言語モデルによる医療概念の理解と推論を評価するための貴重なリソースとして機能します。
私たちのベンチマークは https://huggingface.co/datasets/ofir408/MedConceptsQA で入手できます。
要約(オリジナル)
We present MedConceptsQA, a dedicated open source benchmark for medical concepts question answering. The benchmark comprises of questions of various medical concepts across different vocabularies: diagnoses, procedures, and drugs. The questions are categorized into three levels of difficulty: easy, medium, and hard. We conducted evaluations of the benchmark using various Large Language Models. Our findings show that pre-trained clinical Large Language Models achieved accuracy levels close to random guessing on this benchmark, despite being pre-trained on medical data. However, GPT-4 achieves an absolute average improvement of nearly 27%-37% (27% for zero-shot learning and 37% for few-shot learning) when compared to clinical Large Language Models. Our benchmark serves as a valuable resource for evaluating the understanding and reasoning of medical concepts by Large Language Models. Our benchmark is available at https://huggingface.co/datasets/ofir408/MedConceptsQA
arxiv情報
著者 | Ofir Ben Shoham,Nadav Rappoport |
発行日 | 2024-05-14 16:44:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google