GPT-4 can pass the Korean National Licensing Examination for Korean Medicine Doctors

要約

韓国伝統医学(TKM)は、個別の診断と治療を重視しています。
この独自性により、データと暗黙的なプロセスが限られているため、AI モデリングが困難になります。
大規模言語モデル (LLM) は、医学書の高度なトレーニングを受けていなくても、優れた医学推論を実証しています。
この研究では、韓国の韓方医師国家免許試験(K-NLEKMD)をベンチマークとして使用して、TKM における GPT-4 の能力を評価しました。
全国組織によって管理される K-NLEKMD には、TKM の 12 の主要主題が含まれています。
中国語の注釈、質問と指示の英語翻訳、試験に最適化された指示、および自己一貫性を備えたプロンプトを最適化しました。
最適化されたプロンプトを備えた GPT-4 は 66.18% の精度を達成し、試験の平均合格点の 60% と各科目の最低値 40% の両方を上回りました。
言語関連のプロンプトとプロンプト手法を段階的に導入することで、精度が 51.82% から最大精度まで向上しました。
GPT-4 は、韓国に特化した公衆衛生および医療関連法、内科 (2)、および TKM などの科目で精度が低かった。
TKM の専門知識を必要とする質問では、モデルの精度が低くなりました。
介入ベースの質問よりも、診断ベースおよび想起ベースの質問のほうが高い精度を示しました。
GPT-4 の応答の一貫性と精度の間には正の相関関係が観察されました。
この研究は、LLM を TKM に適用することの可能性と課題の両方を明らかにします。
これらの発見は、文化的に適応した医療、特にTKMにおける、臨床支援、医学教育、研究などのタスクにおけるGPT-4のようなLLMの可能性を強調しています。
しかし、彼らはまた、大規模な言語モデルに内在する文化的偏見を軽減し、現実世界の臨床現場でその有効性を検証する方法の開発の必要性も指摘しています。

要約(オリジナル)

Traditional Korean medicine (TKM) emphasizes individualized diagnosis and treatment. This uniqueness makes AI modeling difficult due to limited data and implicit processes. Large language models (LLMs) have demonstrated impressive medical inference, even without advanced training in medical texts. This study assessed the capabilities of GPT-4 in TKM, using the Korean National Licensing Examination for Korean Medicine Doctors (K-NLEKMD) as a benchmark. The K-NLEKMD, administered by a national organization, encompasses 12 major subjects in TKM. We optimized prompts with Chinese-term annotation, English translation for questions and instruction, exam-optimized instruction, and self-consistency. GPT-4 with optimized prompts achieved 66.18% accuracy, surpassing both the examination’s average pass mark of 60% and the 40% minimum for each subject. The gradual introduction of language-related prompts and prompting techniques enhanced the accuracy from 51.82% to its maximum accuracy. GPT-4 showed low accuracy in subjects including public health & medicine-related law, internal medicine (2) which are localized in Korea and TKM. The model’s accuracy was lower for questions requiring TKM-specialized knowledge. It exhibited higher accuracy in diagnosis-based and recall-based questions than in intervention-based questions. A positive correlation was observed between the consistency and accuracy of GPT-4’s responses. This study unveils both the potential and challenges of applying LLMs to TKM. These findings underline the potential of LLMs like GPT-4 in culturally adapted medicine, especially TKM, for tasks such as clinical assistance, medical education, and research. But they also point towards the necessity for the development of methods to mitigate cultural bias inherent in large language models and validate their efficacy in real-world clinical settings.

arxiv情報

著者 Dongyeop Jang,Tae-Rim Yun,Choong-Yeol Lee,Young-Kyu Kwon,Chang-Eop Kim
発行日 2023-11-17 01:49:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, J.3 パーマリンク