要約
OpenNotesにより、患者はEHRノートにアクセスできますが、医療用語は理解を妨げる可能性があります。
理解を向上させるために、プロンプト、微調整、およびデータ増強を使用して、主要な医療用語を抽出および優先順位付けするために、閉鎖およびオープンソースLLMを評価しました。
(i)一般と構造化されたプロンプト、(ii)ゼロショットvs.少数のショットプロンプト、(iii)微調整、および(iv)データ増強を実験して、106個の専門家解決EHRノートでLLMSを評価しました。
低リソース設定でオープンソースモデルを強化するために、データの増強と応用ランキング技術にChatGptを使用しました。
増強されたデータセットサイズ(10〜10,000)を徐々に増やし、5倍の交差検証を実施し、F1スコアと平均相互ランク(MRR)を報告しました。
私たちの結果は、微調整とデータの増強により、他の戦略よりもパフォーマンスが向上したことを示しています。
GPT-4ターボは最高のF1(0.433)を達成しましたが、データ増強を伴うMistral7bは最高のMRR(0.746)でした。
オープンソースモデルは、微調整または拡張された場合、閉鎖モデルを上回ります。
特に、最高のF1およびMRRスコアは常に整列しているわけではありませんでした。
バニラモデルのゼロショットを上回る少数のショットと構造化されたプロンプトは、モデル間で異なる好みをもたらしました。
微調整はゼロショットパフォーマンスを改善しましたが、時には少数のショットパフォーマンスを低下させました。
データ増強は、他の方法よりも同等またはそれ以上に実行されました。
私たちの評価は、低リソースシナリオでの医療用語抽出のモデルパフォーマンスを改善する際のプロンプト、微調整、およびデータ増強の有効性を強調しています。
要約(オリジナル)
OpenNotes enables patients to access EHR notes, but medical jargon can hinder comprehension. To improve understanding, we evaluated closed- and open-source LLMs for extracting and prioritizing key medical terms using prompting, fine-tuning, and data augmentation. We assessed LLMs on 106 expert-annotated EHR notes, experimenting with (i) general vs. structured prompts, (ii) zero-shot vs. few-shot prompting, (iii) fine-tuning, and (iv) data augmentation. To enhance open-source models in low-resource settings, we used ChatGPT for data augmentation and applied ranking techniques. We incrementally increased the augmented dataset size (10 to 10,000) and conducted 5-fold cross-validation, reporting F1 score and Mean Reciprocal Rank (MRR). Our result show that fine-tuning and data augmentation improved performance over other strategies. GPT-4 Turbo achieved the highest F1 (0.433), while Mistral7B with data augmentation had the highest MRR (0.746). Open-source models, when fine-tuned or augmented, outperformed closed-source models. Notably, the best F1 and MRR scores did not always align. Few-shot prompting outperformed zero-shot in vanilla models, and structured prompts yielded different preferences across models. Fine-tuning improved zero-shot performance but sometimes degraded few-shot performance. Data augmentation performed comparably or better than other methods. Our evaluation highlights the effectiveness of prompting, fine-tuning, and data augmentation in improving model performance for medical jargon extraction in low-resource scenarios.
arxiv情報
著者 | Won Seok Jang,Sharmin Sultana,Zonghai Yao,Hieu Tran,Zhichao Yang,Sunjae Kwon,Hong Yu |
発行日 | 2025-02-25 14:34:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google