Evaluating Clinical Competencies of Large Language Models with a General Practice Benchmark

要約

大規模な言語モデル(LLM)は、一般的な慣行においてかなりの可能性を示しています。
ただし、既存のベンチマークと評価フレームワークは、主に試験スタイルまたは単純化された質問回答形式に依存していますが、一般的な実践で遭遇する実際の臨床的責任と一致するコンピテンシーベースの構造が欠けています。
その結果、LLMSが一般開業医(GPS)の義務を確実に満たすことができる程度は不確実なままです。
この作業では、GPSとして機能するLLMの能力を評価するための新しい評価フレームワークを提案します。
このフレームワークに基づいて、一般的な実践ベンチマーク(GPBench)を紹介します。そのデータは、日常的な臨床診療基準に従ってドメインの専門家によって細心の注意を払って注釈が付けられています。
最先端のLLMを10個評価し、その能力を分析します。
私たちの調査結果は、現在のLLMがまだ人間の監視なしにそのような設定で展開する準備ができていないことを示しており、GPSの日々の責任に特化したさらなる最適化が不可欠です。

要約(オリジナル)

Large Language Models (LLMs) have demonstrated considerable potential in general practice. However, existing benchmarks and evaluation frameworks primarily depend on exam-style or simplified question-answer formats, lacking a competency-based structure aligned with the real-world clinical responsibilities encountered in general practice. Consequently, the extent to which LLMs can reliably fulfill the duties of general practitioners (GPs) remains uncertain. In this work, we propose a novel evaluation framework to assess the capability of LLMs to function as GPs. Based on this framework, we introduce a general practice benchmark (GPBench), whose data are meticulously annotated by domain experts in accordance with routine clinical practice standards. We evaluate ten state-of-the-art LLMs and analyze their competencies. Our findings indicate that current LLMs are not yet ready for deployment in such settings without human oversight, and further optimization specifically tailored to the daily responsibilities of GPs is essential.

arxiv情報

著者 Zheqing Li,Yiying Yang,Jiping Lang,Wenhao Jiang,Yuhang Zhao,Shuang Li,Dingqian Wang,Zhu Lin,Xuanna Li,Yuze Tang,Jiexian Qiu,Xiaolin Lu,Hongji Yu,Shuang Chen,Yuhua Bi,Xiaofei Zeng,Yixian Chen,Junrong Chen,Lin Yao
発行日 2025-05-14 10:25:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク