CliMedBench: A Large-Scale Chinese Benchmark for Evaluating Medical Large Language Models in Clinical Scenarios

要約

様々な領域で大規模言語モデル(Large Language Models: LLM)が普及する中、モデルを徹底的に検証する必要がある臨床医療シナリオにおいて、統一された評価基準が特に必要とされている。CliMedBenchは、LLMの医療能力を7つの主要な次元にわたって評価するために特別に設計された、専門家による14の臨床シナリオを含む包括的なベンチマークである。このベンチマークは、一流三次病院の実際の医療レポートと本物の試験演習から得られた33,735の問題から構成されています。このベンチマークの信頼性は、いくつかの方法で確認されている。(i)中国の医学系LLMは、特に医学的推論と事実の一貫性が重要なこのベンチマークにおいて十分な成果を上げておらず、臨床知識と診断精度の進歩の必要性を強調している。(ii)いくつかの一般的な領域のLLMは医療現場において大きな可能性を示しているが、多くの医療LLMは入力能力が限られているため、実用化の妨げとなっている。これらの知見は、臨床場面におけるLLMの長所と限界の両方を明らかにし、医学研究のための重要な洞察を提供する。

要約(オリジナル)

With the proliferation of Large Language Models (LLMs) in diverse domains, there is a particular need for unified evaluation standards in clinical medical scenarios, where models need to be examined very thoroughly. We present CliMedBench, a comprehensive benchmark with 14 expert-guided core clinical scenarios specifically designed to assess the medical ability of LLMs across 7 pivot dimensions. It comprises 33,735 questions derived from real-world medical reports of top-tier tertiary hospitals and authentic examination exercises. The reliability of this benchmark has been confirmed in several ways. Subsequent experiments with existing LLMs have led to the following findings: (i) Chinese medical LLMs underperform on this benchmark, especially where medical reasoning and factual consistency are vital, underscoring the need for advances in clinical knowledge and diagnostic accuracy. (ii) Several general-domain LLMs demonstrate substantial potential in medical clinics, while the limited input capacity of many medical LLMs hinders their practical use. These findings reveal both the strengths and limitations of LLMs in clinical scenarios and offer critical insights for medical research.

arxiv情報

著者 Zetian Ouyang,Yishuai Qiu,Linlin Wang,Gerard de Melo,Ya Zhang,Yanfeng Wang,Liang He
発行日 2024-10-04 15:15:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク