Exploring the Potential of Large Language models in Traditional Korean Medicine: A Foundation Model Approach to Culturally-Adapted Healthcare

要約

タイトル:「大規模言語モデルの可能性を探る:文化的適応医療に向けた基盤モデルアプローチにおける韓医学の可能性」

要約:
– 伝統的韓国医学(TKM)は個別の診断と治療を強調するため、データが限られ、暗黙的なプロセスのためAIモデリングが難しい。
– メディシン専門のトレーニングがないにもかかわらず、大型言語モデルのGPT-3.5およびGPT-4は印象的な医療知識を示している。
– 本研究では、GPT-3.5およびGPT-4のTKMにおける能力を、韓国国家試験を用いて評価した。
– GPT-3.5およびGPT-4は、12の主題を含む2022年の試験の340の質問に回答し、それぞれの質問を初期化セッションで5回独立して評価した。
– 結果として、GPT-3.5およびGPT-4はそれぞれ42.06%および57.29%の精度を達成した。GPT-4は合格点に近づいていた。
– 設問ごとの精度には相当する差があり、精神神経学に対して83.75%の精度があり、内科に対して28.75%の精度があった。
– 2つのモデルとも、回想型および診断型の質問に対して高い精度を示したが、介入型の質問に苦労した。
– TKM専門の知識が必要な質問に対する精度は、TKM専門の知識が不要な質問に対する精度に比べて相対的に低かった。GPT-4は表に基づく質問に対して高い精度を示し、両モデルは一貫した回答を示した。
– 一貫性と精度の間には正の相関が観察された。
– 本研究のモデルは、ドメイン専門のトレーニングがなくとも、TKMの決定における合格近くの性能を示したが、文化的バイアスによって引き起こされると信じられる制限も観察された。
– この研究は、基盤モデルが文化的に適応した医療、特にTKMにおいて、臨床支援、医学教育、および医学研究に潜在的に有用であることを示唆している。

要約(オリジナル)

Introduction: Traditional Korean medicine (TKM) emphasizes individualized diagnosis and treatment, making AI modeling difficult due to limited data and implicit processes. GPT-3.5 and GPT-4, large language models, have shown impressive medical knowledge despite lacking medicine-specific training. This study aimed to assess the capabilities of GPT-3.5 and GPT-4 for TKM using the Korean National Licensing Examination for Korean Medicine Doctors. Methods: GPT-3.5 (February 2023) and GPT-4 (March 2023) models answered 340 questions from the 2022 examination across 12 subjects. Each question was independently evaluated five times in an initialized session. Results: GPT-3.5 and GPT-4 achieved 42.06% and 57.29% accuracy, respectively, with GPT-4 nearing passing performance. There were significant differences in accuracy by subjects, with 83.75% accuracy for neuropsychiatry compared to 28.75% for internal medicine (2). Both models showed high accuracy in recall-based and diagnosis-based questions but struggled with intervention-based ones. The accuracy for questions that require TKM-specialized knowledge was relatively lower than the accuracy for questions that do not GPT-4 showed high accuracy for table-based questions, and both models demonstrated consistent responses. A positive correlation between consistency and accuracy was observed. Conclusion: Models in this study showed near-passing performance in decision-making for TKM without domain-specific training. However, limits were also observed that were believed to be caused by culturally-biased learning. Our study suggests that foundation models have potential in culturally-adapted medicine, specifically TKM, for clinical assistance, medical education, and medical research.

arxiv情報

著者 Dongyeop Jang,Chang-Eop Kim
発行日 2023-03-31 05:43:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL, cs.LG, J.3 パーマリンク