MedGPTEval: A Dataset and Benchmark to Evaluate Responses of Large Language Models in Medicine

要約

方法:まず、包括的な文献レビューに基づき、評価基準のセットを設計する。第二に、既存の評価基準候補を、医学と工学の専門家5名によるデルファイ法を用いて最適化する。第三に、3人の臨床専門家がLLMと対話するための医療データセットを設計する。最後に、データセットに対してベンチマーク実験が行われる。LLMに基づくチャットボットが生成した応答は、ライセンスを持つ5人の医療専門家によるブラインド評価のために記録される。結果:得られた評価基準は、医療専門家の能力、社会的包括的な能力、文脈的な能力、計算の頑健性をカバーし、16の詳細な指標を持つ。医療データセットは、中国語の医療対話27件と症例報告7件である。OpenAIのChatGPT、Baidu Inc.のERNIE Bot、上海人工知能研究所のDoctor PuJiang (Dr. PJ)の3つのチャットボットを評価しました。実験の結果、Dr.PJは、複数回にわたる医療対話と症例報告のシナリオの両方で、ChatGPTとERNIE Botを凌駕することが示された。

要約(オリジナル)

METHODS: First, a set of evaluation criteria is designed based on a comprehensive literature review. Second, existing candidate criteria are optimized for using a Delphi method by five experts in medicine and engineering. Third, three clinical experts design a set of medical datasets to interact with LLMs. Finally, benchmarking experiments are conducted on the datasets. The responses generated by chatbots based on LLMs are recorded for blind evaluations by five licensed medical experts. RESULTS: The obtained evaluation criteria cover medical professional capabilities, social comprehensive capabilities, contextual capabilities, and computational robustness, with sixteen detailed indicators. The medical datasets include twenty-seven medical dialogues and seven case reports in Chinese. Three chatbots are evaluated, ChatGPT by OpenAI, ERNIE Bot by Baidu Inc., and Doctor PuJiang (Dr. PJ) by Shanghai Artificial Intelligence Laboratory. Experimental results show that Dr. PJ outperforms ChatGPT and ERNIE Bot in both multiple-turn medical dialogue and case report scenarios.

arxiv情報

著者 Jie Xu,Lu Lu,Sen Yang,Bilin Liang,Xinwei Peng,Jiali Pang,Jinru Ding,Xiaoming Shi,Lingrui Yang,Huan Song,Kang Li,Xin Sun,Shaoting Zhang
発行日 2023-05-12 09:37:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク