LLMs for clinical risk prediction

要約

この研究では、せん妄発症の臨床リスクを予測する際の GPT-4 と clinalytix Medical AI の有効性を比較します。
調査結果によると、GPT-4 は陽性症例の特定に重大な欠陥があり、せん妄リスクの信頼できる確率推定値を提供するのに苦労している一方、clinalytix Medical AI は優れた精度を示しました。
大規模言語モデル (LLM) の出力を徹底的に分析することで、これらの不一致の潜在的な原因が解明され、既存の文献で報告されている制限と一致します。
これらの結果は、LLM が状態を正確に診断し、複雑な臨床データを解釈する際に直面する課題を浮き彫りにしています。
LLM はヘルスケアにおいて大きな可能性を秘めていますが、現時点では独立した臨床意思決定には適していません。
代わりに、臨床専門知識を補完する補助的役割として雇用されるべきです。
患者と医療従事者の両方にとって最適な結果を確保するには、人間による継続的な監視が引き続き不可欠です。

要約(オリジナル)

This study compares the efficacy of GPT-4 and clinalytix Medical AI in predicting the clinical risk of delirium development. Findings indicate that GPT-4 exhibited significant deficiencies in identifying positive cases and struggled to provide reliable probability estimates for delirium risk, while clinalytix Medical AI demonstrated superior accuracy. A thorough analysis of the large language model’s (LLM) outputs elucidated potential causes for these discrepancies, consistent with limitations reported in extant literature. These results underscore the challenges LLMs face in accurately diagnosing conditions and interpreting complex clinical data. While LLMs hold substantial potential in healthcare, they are currently unsuitable for independent clinical decision-making. Instead, they should be employed in assistive roles, complementing clinical expertise. Continued human oversight remains essential to ensure optimal outcomes for both patients and healthcare providers.

arxiv情報

著者 Mohamed Rezk,Patricia Cabanillas Silva,Fried-Michael Dahlweid
発行日 2024-09-16 11:34:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク