Fine-tuning Large Language Model (LLM) Artificial Intelligence Chatbots in Ophthalmology and LLM-based evaluation using GPT-4

要約

目的: 微調整された LLM チャットボットによって生成された眼科関連の患者の質問に対する応答を評価するために、GPT-4 ベースの評価と臨床医の専門家との整合性を評価する。
方法: 400 件の眼科の質問と一対の回答が、患者からよく寄せられる質問を表すために眼科医によって作成され、微調整 (368; 92%) と検査 (40; 8%) に分けられました。
LLAMA2-7b、LLAMA2-7b-Chat、LLAMA2-13b、LLAMA2-13b-Chat を含む 5 つの異なる LLM をチューニングしました。
テスト データセットには、追加の 8 つの緑内障 QnA ペアが含まれていました。
テスト データセットに対する 200 の応答が、評価のために 5 つの微調整された LLM によって生成されました。
カスタマイズされた臨床評価ルーブリックは、臨床精度、関連性、患者の安全性、理解しやすさに基づいて GPT-4 評価をガイドするために使用されました。
次に、GPT-4 の評価を、臨床的整合性について 5 人の臨床医によるランキングと比較しました。
結果: すべての微調整された LLM の中で、GPT-3.5 のスコアが最も高く (87.1%)、続いて LLAMA2-13b (80.9%)、LLAMA2-13b-chat (75.5%)、LLAMA2-7b-Chat (70%)、
LLAMA2-7b (68.8%) は GPT-4 評価に基づく。
GPT-4 評価は、人間の臨床医ランキングとの有意な一致を示し、スピアマンとケンダル タウの相関係数はそれぞれ 0.90 と 0.80 でした。
一方、コーエン カッパに基づく相関は 0.50 とより控えめでした。
特に、定性分析と緑内障サブ分析により、LLM によって生成された応答の臨床的不正確さが明らかになり、GPT-4 評価によって適切に特定されました。
結論: GPT-4 評価の注目すべき臨床的整合性は、ヘルスケア関連のクエリに対する LLM チャットボットの応答の臨床評価を合理化する可能性を強調しました。
この効率的かつ自動化された評価は、既存の臨床医に依存した手動による評価を補完することにより、医療向け LLM アプリケーションの将来の開発の検証に役立つ可能性があります。

要約(オリジナル)

Purpose: To assess the alignment of GPT-4-based evaluation to human clinician experts, for the evaluation of responses to ophthalmology-related patient queries generated by fine-tuned LLM chatbots. Methods: 400 ophthalmology questions and paired answers were created by ophthalmologists to represent commonly asked patient questions, divided into fine-tuning (368; 92%), and testing (40; 8%). We find-tuned 5 different LLMs, including LLAMA2-7b, LLAMA2-7b-Chat, LLAMA2-13b, and LLAMA2-13b-Chat. For the testing dataset, additional 8 glaucoma QnA pairs were included. 200 responses to the testing dataset were generated by 5 fine-tuned LLMs for evaluation. A customized clinical evaluation rubric was used to guide GPT-4 evaluation, grounded on clinical accuracy, relevance, patient safety, and ease of understanding. GPT-4 evaluation was then compared against ranking by 5 clinicians for clinical alignment. Results: Among all fine-tuned LLMs, GPT-3.5 scored the highest (87.1%), followed by LLAMA2-13b (80.9%), LLAMA2-13b-chat (75.5%), LLAMA2-7b-Chat (70%) and LLAMA2-7b (68.8%) based on the GPT-4 evaluation. GPT-4 evaluation demonstrated significant agreement with human clinician rankings, with Spearman and Kendall Tau correlation coefficients of 0.90 and 0.80 respectively; while correlation based on Cohen Kappa was more modest at 0.50. Notably, qualitative analysis and the glaucoma sub-analysis revealed clinical inaccuracies in the LLM-generated responses, which were appropriately identified by the GPT-4 evaluation. Conclusion: The notable clinical alignment of GPT-4 evaluation highlighted its potential to streamline the clinical evaluation of LLM chatbot responses to healthcare-related queries. By complementing the existing clinician-dependent manual grading, this efficient and automated evaluation could assist the validation of future developments in LLM applications for healthcare.

arxiv情報

著者 Ting Fang Tan,Kabilan Elangovan,Liyuan Jin,Yao Jie,Li Yong,Joshua Lim,Stanley Poh,Wei Yan Ng,Daniel Lim,Yuhe Ke,Nan Liu,Daniel Shu Wei Ting
発行日 2024-02-15 16:43:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク