要約
我々は、GPT-4ターボのような一般領域大規模言語モデルが、電子カルテから得られた手技の説明と患者の臨床メモを使用して、リスク層別化を実行し、術後の転帰指標を予測できるかどうかを調査する。我々は、ASA身体状態分類、入院、ICU入院、予定外の入院、病院死亡率、PACUフェーズ1期間、入院期間、ICU期間の予測という8つの異なるタスクについて予測性能を検証した。数発のプロンプトと思考の連鎖プロンプトは、いくつかのタスクの予測性能を向上させる。F1スコアはASA身体状態分類で0.50、ICU入室で0.81、病院死亡率で0.86であった。期間予測タスクの性能は、すべてのプロンプト戦略で共通して低かった。現世代の大規模言語モデルは、分類タスクにおける周術期のリスク層別化において臨床医を支援し、高品質の自然言語要約と説明を作成することができる。
要約(オリジナル)
We investigate whether general-domain large language models such as GPT-4 Turbo can perform risk stratification and predict post-operative outcome measures using a description of the procedure and a patient’s clinical notes derived from the electronic health record. We examine predictive performance on 8 different tasks: prediction of ASA Physical Status Classification, hospital admission, ICU admission, unplanned admission, hospital mortality, PACU Phase 1 duration, hospital duration, and ICU duration. Few-shot and chain-of-thought prompting improves predictive performance for several of the tasks. We achieve F1 scores of 0.50 for ASA Physical Status Classification, 0.81 for ICU admission, and 0.86 for hospital mortality. Performance on duration prediction tasks were universally poor across all prompt strategies. Current generation large language models can assist clinicians in perioperative risk stratification on classification tasks and produce high-quality natural language summaries and explanations.
arxiv情報
著者 | Philip Chung,Christine T Fong,Andrew M Walters,Nima Aghaeepour,Meliha Yetisgen,Vikas N O’Reilly-Shah |
発行日 | 2024-01-03 08:41:27+00:00 |
arxivサイト | arxiv_id(pdf) |