Performance of leading large language models in May 2025 in Membership of the Royal College of General Practitioners-style examination questions: a cross-sectional analysis

要約

背景大規模言語モデル(LLM)は、臨床診療をサポートする大きな可能性を示してきた。Chat GPT4とその前身を除けば、LLM、特に主要でより強力な推論モデルクラスのLLMは、プライマリ・ケアの領域を含む医学専門試験問題の対象となったことはほとんどない。この論文では、2025年5月現在の主要なLLM(o3、Claude Opus 4、Grok3、Gemini 2.5 Pro)のプライマリ・ケア教育における能力を、特にMRCGP(Member of the Royal College of General Practitioners)形式の試験問題に答える際にテストすることを目的とした。 方法:o3、Claude Opus 4、Grok3、Gemini 2.5 Proは、2025年5月25日に英国王立総合医学会(Royal College of General Practitioners)のGP SelfTestから無作為に選ばれた100問の多肢選択問題に解答するよう課された。問題には、文字情報、検査結果、臨床画像が含まれていた。各モデルは英国のGPとして回答するよう促され、完全な問題情報が提供された。各問題は各モデルが1回ずつ受験した。回答はGP SelfTestが提供した正解と照らし合わせて採点された。 結果o3、Claude Opus 4、Grok3、Gemini 2.5 Proの合計スコアは、それぞれ99.0%、95.0%、95.0%、95.0%であった。同問題の平均ピアスコアは73.0%であった。 考察o3は最高のパフォーマンスを示したが、他の主要なモデルのパフォーマンスは互いに同等であり、o3を大幅に下回ることはなかった。これらの知見は、プライマリ・ケアの提供をサポートするLLM、特にプライマリ・ケアの臨床データについて特別に訓練された推論モデルのケースを強化するものである。

要約(オリジナル)

Background: Large language models (LLMs) have demonstrated substantial potential to support clinical practice. Other than Chat GPT4 and its predecessors, few LLMs, especially those of the leading and more powerful reasoning model class, have been subjected to medical specialty examination questions, including in the domain of primary care. This paper aimed to test the capabilities of leading LLMs as of May 2025 (o3, Claude Opus 4, Grok3, and Gemini 2.5 Pro) in primary care education, specifically in answering Member of the Royal College of General Practitioners (MRCGP) style examination questions. Methods: o3, Claude Opus 4, Grok3, and Gemini 2.5 Pro were tasked to answer 100 randomly chosen multiple choice questions from the Royal College of General Practitioners GP SelfTest on 25 May 2025. Questions included textual information, laboratory results, and clinical images. Each model was prompted to answer as a GP in the UK and was provided with full question information. Each question was attempted once by each model. Responses were scored against correct answers provided by GP SelfTest. Results: The total score of o3, Claude Opus 4, Grok3, and Gemini 2.5 Pro was 99.0%, 95.0%, 95.0%, and 95.0%, respectively. The average peer score for the same questions was 73.0%. Discussion: All models performed remarkably well, and all substantially exceeded the average performance of GPs and GP registrars who had answered the same questions. o3 demonstrated the best performance, while the performances of the other leading models were comparable with each other and were not substantially lower than that of o3. These findings strengthen the case for LLMs, particularly reasoning models, to support the delivery of primary care, especially those that have been specifically trained on primary care clinical data.

arxiv情報

著者 Richard Armitage
発行日 2025-06-03 15:25:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.HC パーマリンク