A Comprehensive Survey on Evaluating Large Language Model Applications in the Medical Industry

要約

2017 年の Transformer アーキテクチャの開始以来、GPT や BERT などの大規模言語モデル (LLM) は大幅に進化し、言語の理解と生成における高度な機能によってさまざまな業界に影響を与えています。
これらのモデルは医療分野を変革する可能性を示しており、その効果的かつ倫理的な展開を確保するための専門的な評価フレームワークの必要性が強調されています。
この包括的な調査では、医療分野における LLM の広範な適用と必要な評価について概説し、医療成果の向上において LLM の能力を最大限に活用するための実証的検証の重要な必要性を強調しています。
私たちの調査は、臨床現場、医療テキストデータ処理、研究、教育、公衆衛生意識にわたる LLM アプリケーションの詳細な分析を提供するように構成されています。
まず、さまざまな医療アプリケーションにおける LLM の役割を調査し、臨床診断、医療テキスト データ処理、情報検索、データ分析、教育コンテンツ生成などのタスクのパフォーマンスに基づいた LLM の評価を詳しく説明します。
後続のセクションでは、モデル、評価者、比較実験など、使用される評価方法と指標について包括的に説明します。
これらの評価で利用されたベンチマークとデータセットをさらに調査し、質問応答、要約、情報抽出、バイオインフォマティクス、情報検索、および一般的な包括的なベンチマークなどのタスクのベンチマークを分類して説明します。
この構造により、医療分野における LLM の有効性、精度、使いやすさ、倫理的整合性がどのように評価されるかを完全に理解することができます。

要約(オリジナル)

Since the inception of the Transformer architecture in 2017, Large Language Models (LLMs) such as GPT and BERT have evolved significantly, impacting various industries with their advanced capabilities in language understanding and generation. These models have shown potential to transform the medical field, highlighting the necessity for specialized evaluation frameworks to ensure their effective and ethical deployment. This comprehensive survey delineates the extensive application and requisite evaluation of LLMs within healthcare, emphasizing the critical need for empirical validation to fully exploit their capabilities in enhancing healthcare outcomes. Our survey is structured to provide an in-depth analysis of LLM applications across clinical settings, medical text data processing, research, education, and public health awareness. We begin by exploring the roles of LLMs in various medical applications, detailing their evaluation based on performance in tasks such as clinical diagnosis, medical text data processing, information retrieval, data analysis, and educational content generation. The subsequent sections offer a comprehensive discussion on the evaluation methods and metrics employed, including models, evaluators, and comparative experiments. We further examine the benchmarks and datasets utilized in these evaluations, providing a categorized description of benchmarks for tasks like question answering, summarization, information extraction, bioinformatics, information retrieval and general comprehensive benchmarks. This structure ensures a thorough understanding of how LLMs are assessed for their effectiveness, accuracy, usability, and ethical alignment in the medical domain. …

arxiv情報

著者 Yining Huang,Keke Tang,Meilian Chen,Boyuan Wang
発行日 2024-05-29 15:50:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク