CliBench: Multifaceted Evaluation of Large Language Models in Clinical Decisions on Diagnoses, Procedures, Lab Tests Orders and Prescriptions

要約

人工知能 (AI)、特に大規模言語モデル (LLM) を臨床診断プロセスに統合すると、医療ケアの効率とアクセシビリティを向上させる大きな可能性がもたらされます。
LLM は医療分野ではある程度の有望性を示していますが、臨床診断における LLM の応用は、特に高度に洗練された患者固有の意思決定が必要とされる実際の臨床現場では、まだ研究されていません。
この分野におけるLLMの現在の評価は、特定の疾患や専門分野に焦点を当て、簡素化された診断タスクを採用するなど、範囲が狭いことが多い。
このギャップを埋めるために、MIMIC IV データセットから開発された新しいベンチマークである CliBench を紹介します。これは、臨床診断における LLM の能力の包括的かつ現実的な評価を提供します。
このベンチマークは、さまざまな専門分野にわたる多様な医療ケースからの診断をカバーするだけでなく、治療手順の特定、臨床検査の指示、薬の処方といった臨床的に重要なタスクも組み込んでいます。
構造化された出力オントロジーによってサポートされている CliBench は、正確で多粒度の評価を可能にし、望ましい粒度の多様な臨床タスクに対する LLM の機能の深い理解を提供します。
私たちは、臨床上の意思決定における熟練度を評価するために、主要な LLM のゼロショット評価を実施します。
私たちの予備的な結果は、臨床現場における現在の LLM の可能性と限界を明らかにし、LLM を活用した医療の将来の進歩に貴重な洞察を提供します。

要約(オリジナル)

The integration of Artificial Intelligence (AI), especially Large Language Models (LLMs), into the clinical diagnosis process offers significant potential to improve the efficiency and accessibility of medical care. While LLMs have shown some promise in the medical domain, their application in clinical diagnosis remains underexplored, especially in real-world clinical practice, where highly sophisticated, patient-specific decisions need to be made. Current evaluations of LLMs in this field are often narrow in scope, focusing on specific diseases or specialties and employing simplified diagnostic tasks. To bridge this gap, we introduce CliBench, a novel benchmark developed from the MIMIC IV dataset, offering a comprehensive and realistic assessment of LLMs’ capabilities in clinical diagnosis. This benchmark not only covers diagnoses from a diverse range of medical cases across various specialties but also incorporates tasks of clinical significance: treatment procedure identification, lab test ordering and medication prescriptions. Supported by structured output ontologies, CliBench enables a precise and multi-granular evaluation, offering an in-depth understanding of LLM’s capability on diverse clinical tasks of desired granularity. We conduct a zero-shot evaluation of leading LLMs to assess their proficiency in clinical decision-making. Our preliminary results shed light on the potential and limitations of current LLMs in clinical settings, providing valuable insights for future advancements in LLM-powered healthcare.

arxiv情報

著者 Mingyu Derek Ma,Chenchen Ye,Yu Yan,Xiaoxuan Wang,Peipei Ping,Timothy S Chang,Wei Wang
発行日 2024-06-14 11:10:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク