Benchmarking ChatGPT-4 on ACR Radiation Oncology In-Training (TXIT) Exam and Red Journal Gray Zone Cases: Potentials and Challenges for AI-Assisted Medical Education and Decision Making in Radiation Oncology

要約

医学における教育や意思決定を目的とした大規模言語モデルの可能性は、米国医師免許試験 (USMLE) や MedQA 試験などの医療試験でそれなりのスコアを達成することで証明されています。
この研究では、第 38 回米国放射線学会 (ACR) の放射線腫瘍学研修 (TXIT) 試験と 2022 年のレッド ジャーナル グレー ゾーンの症例を使用して、放射線腫瘍学の専門分野における ChatGPT-4 のパフォーマンスを評価します。
TXIT 試験では、ChatGPT-3.5 と ChatGPT-4 がそれぞれ 63.65% と 74.57% のスコアを達成し、最新の ChatGPT-4 モデルの利点が強調されました。
TXIT 試験に基づいて、放射線腫瘍学における ChatGPT-4 の得意分野と苦手分野がある程度特定されます。
具体的には、ChatGPT-4 は、ACR 知識ドメインに従って、骨と軟部組織、婦人科の知識よりも、統計、中枢神経系と眼、小児科、生物学、物理学の知識が優れていることを示しています。
臨床ケアパスに関しては、ChatGPT-4 は診断、予後、毒性の点で近接照射療法や線量測定よりも優れています。
臨床試験の詳細を詳しく理解する能力が不足しています。
グレーゾーンの症例に対して、ChatGPT-4 は、高い正確性と包括性を備えて、各症例に合わせた個別の治療アプローチを提案できます。
重要なのは、人間の専門家によって提案されていない、多くの症例に対して新しい治療の側面を提供することです。
どちらの評価も、特定の領域における限界を認識しながらも、一般の人々やがん患者に対する医学教育における ChatGPT-4 の可能性と、臨床上の意思決定を支援する可能性を示しています。
幻覚の危険性があるため、ChatGPT によって提供される事実は常に検証される必要があります。

要約(オリジナル)

The potential of large language models in medicine for education and decision making purposes has been demonstrated as they achieve decent scores on medical exams such as the United States Medical Licensing Exam (USMLE) and the MedQA exam. In this work, we evaluate the performance of ChatGPT-4 in the specialized field of radiation oncology using the 38th American College of Radiology (ACR) radiation oncology in-training (TXIT) exam and the 2022 Red Journal Gray Zone cases. For the TXIT exam, ChatGPT-3.5 and ChatGPT-4 have achieved the scores of 63.65% and 74.57%, respectively, highlighting the advantage of the latest ChatGPT-4 model. Based on the TXIT exam, ChatGPT-4’s strong and weak areas in radiation oncology are identified to some extent. Specifically, ChatGPT-4 demonstrates better knowledge of statistics, CNS & eye, pediatrics, biology, and physics than knowledge of bone & soft tissue and gynecology, as per the ACR knowledge domain. Regarding clinical care paths, ChatGPT-4 performs better in diagnosis, prognosis, and toxicity than brachytherapy and dosimetry. It lacks proficiency in in-depth details of clinical trials. For the Gray Zone cases, ChatGPT-4 is able to suggest a personalized treatment approach to each case with high correctness and comprehensiveness. Importantly, it provides novel treatment aspects for many cases, which are not suggested by any human experts. Both evaluations demonstrate the potential of ChatGPT-4 in medical education for the general public and cancer patients, as well as the potential to aid clinical decision-making, while acknowledging its limitations in certain domains. Because of the risk of hallucination, facts provided by ChatGPT always need to be verified.

arxiv情報

著者 Yixing Huang,Ahmed Gomaa,Sabine Semrau,Marlen Haderlein,Sebastian Lettmaier,Thomas Weissmann,Johanna Grigo,Hassen Ben Tkhayat,Benjamin Frey,Udo S. Gaipl,Luitpold V. Distel,Andreas Maier,Rainer Fietkau,Christoph Bert,Florian Putz
発行日 2023-08-21 09:20:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, physics.med-ph パーマリンク