Evaluation of General Large Language Models in Contextually Assessing Semantic Concepts Extracted from Adult Critical Care Electronic Health Record Notes

要約

ヘルスケアの分野では、その優れたパフォーマンスにより、大規模言語モデル (LLM) にますます注目が集まっています。
しかし、実際の臨床応用におけるそれらの性能は十分に解明されていません。
質問に答えるタスクに基づく従来の評価では、微妙な文脈が完全には捉えられていません。
このギャップは、現実の医療現場における LLM のより詳細で実践的な評価の必要性を浮き彫りにしています。
目的: 臨床医の注釈や判定を含む体系的でわかりやすい分析方法を使用して、成人救命救急医療の複雑な臨床状況における LLM のパフォーマンスを評価することを目指しました。
方法: 実際の臨床ノートの理解と処理における 3 つの一般的な LLM のパフォーマンスを調査しました。
150 件の臨床ノートからの概念が MetaMap によって特定され、9 人の臨床医によってラベル付けされました。
各 LLM の熟練度は、詳細な分析のためのさまざまなプロンプトを使用して、これらの概念の一時性と否定性を特定することによって評価されました。
結果: GPT-4 は、他の LLM と比較して全体的に優れたパフォーマンスを示しました。
対照的に、GPT-3.5 と text-davinci-003 はどちらも、適切なプロンプト戦略が採用されている場合、パフォーマンスが向上します。
GPT ファミリ モデルは、その費用対効果と時間節約機能によって明らかなように、かなりの効率性を実証しています。
結論: LLM のための包括的な定性的パフォーマンス評価フレームワークが開発され、運用可能になりました。
このフレームワークは、単一のパフォーマンスの側面を超えています。
専門家の注釈を使用するこの方法論は、複雑な医療データを処理する際の LLM の能力を検証するだけでなく、専門領域全体にわたる将来の LLM 評価のベンチマークも確立します。

要約(オリジナル)

The field of healthcare has increasingly turned its focus towards Large Language Models (LLMs) due to their remarkable performance. However, their performance in actual clinical applications has been underexplored. Traditional evaluations based on question-answering tasks don’t fully capture the nuanced contexts. This gap highlights the need for more in-depth and practical assessments of LLMs in real-world healthcare settings. Objective: We sought to evaluate the performance of LLMs in the complex clinical context of adult critical care medicine using systematic and comprehensible analytic methods, including clinician annotation and adjudication. Methods: We investigated the performance of three general LLMs in understanding and processing real-world clinical notes. Concepts from 150 clinical notes were identified by MetaMap and then labeled by 9 clinicians. Each LLM’s proficiency was evaluated by identifying the temporality and negation of these concepts using different prompts for an in-depth analysis. Results: GPT-4 showed overall superior performance compared to other LLMs. In contrast, both GPT-3.5 and text-davinci-003 exhibit enhanced performance when the appropriate prompting strategies are employed. The GPT family models have demonstrated considerable efficiency, evidenced by their cost-effectiveness and time-saving capabilities. Conclusion: A comprehensive qualitative performance evaluation framework for LLMs is developed and operationalized. This framework goes beyond singular performance aspects. With expert annotations, this methodology not only validates LLMs’ capabilities in processing complex medical data but also establishes a benchmark for future LLM evaluations across specialized domains.

arxiv情報

著者 Darren Liu,Cheng Ding,Delgersuren Bold,Monique Bouvier,Jiaying Lu,Benjamin Shickel,Craig S. Jabaley,Wenhui Zhang,Soojin Park,Michael J. Young,Mark S. Wainwright,Gilles Clermont,Parisa Rashidi,Eric S. Rosenthal,Laurie Dimisko,Ran Xiao,Joo Heung Yoon,Carl Yang,Xiao Hu
発行日 2024-01-24 16:52:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.SE パーマリンク