CLUE: A Clinical Language Understanding Evaluation for LLMs

要約

大規模言語モデル (LLM) は、患者ケア、診断、管理プロセスに大きく貢献する可能性があることが示されています。
新興の生物医学 LLM は、プライバシーの要求や計算上の制約など、医療固有の課題に対処しています。
ただし、これらのモデルの評価は主に非臨床タスクに限定されており、実際の臨床応用の複雑さは反映されていません。
さらに、臨床タスクにおける生物医学 LLM と一般領域 LLM の間の徹底的な比較は行われていません。
このギャップを埋めるために、実際の臨床タスクで LLM を評価するために調整されたベンチマークである臨床言語理解評価 (CLUE) を紹介します。
CLUE には、MIMIC IV 退院通知から派生した 2 つの新しいデータセットと、医療現場での LLM の実際の適用可能性をテストするために設計された 4 つの既存のタスクが含まれています。
私たちの評価はいくつかの生物医学および一般領域の LLM を対象としており、それらの臨床パフォーマンスと適用性についての洞察を提供します。
CLUE は、将来のモデル開発を臨床応用の現実のニーズに合わせて調整するために、ヘルスケアにおける LLM を評価および開発するための標準化されたアプローチへの一歩を表します。
評価およびデータ生成スクリプトを公開しています: https://github.com/dadaamin/CLUE

要約(オリジナル)

Large Language Models (LLMs) have shown the potential to significantly contribute to patient care, diagnostics, and administrative processes. Emerging biomedical LLMs address healthcare-specific challenges, including privacy demands and computational constraints. However, evaluation of these models has primarily been limited to non-clinical tasks, which do not reflect the complexity of practical clinical applications. Additionally, there has been no thorough comparison between biomedical and general-domain LLMs for clinical tasks. To fill this gap, we present the Clinical Language Understanding Evaluation (CLUE), a benchmark tailored to evaluate LLMs on real-world clinical tasks. CLUE includes two novel datasets derived from MIMIC IV discharge letters and four existing tasks designed to test the practical applicability of LLMs in healthcare settings. Our evaluation covers several biomedical and general domain LLMs, providing insights into their clinical performance and applicability. CLUE represents a step towards a standardized approach to evaluating and developing LLMs in healthcare to align future model development with the real-world needs of clinical application. We publish our evaluation and data generation scripts: https://github.com/dadaamin/CLUE

arxiv情報

著者 Amin Dada,Marie Bauer,Amanda Butler Contreras,Osman Alperen Koraş,Constantin Marc Seibold,Kaleb E Smith,Jens Kleesiek
発行日 2024-04-05 12:51:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク