Prescribing Large Language Models for Perioperative Care: What’s The Right Dose for Pre-trained Models?

要約

術後のリスク予測は、効果的な周術期ケア管理と計画に役立ちます。
私たちは、さまざまなトレーニング戦略を備えた臨床テキストを使用して、臨床大言語モデル (LLM) が術後リスクを予測できるかどうかを評価することを目的としました。
主要コホートには、2018 年から 2021 年までのバーンズ ユダヤ病院 (BJH) システムからの 84,875 件の記録が含まれていました。手法はベス イスラエル ディーコネスの MIMIC データセットで複製されました。
どちらの研究でも、術後のICU滞在期間に基づいた平均追跡期間は7日未満でした。
BJH データセットの場合、アウトカムには 30 日死亡率、肺塞栓症 (PE)、肺炎が含まれます。
BioGPT、ClinicalBERT、および BioClinicalBERT に対して 3 つのドメイン適応および微調整戦略が実装されました。
半教師あり微調整機能を備えたラベルを組み込む。
マルチタスク学習による基礎モデリング。
モデルのパフォーマンスは、分類タスクでは受信者動作特性曲線下面積 (AUROC) と適合率再現曲線下面積 (AUPRC) を使用し、回帰タスクでは平均二乗誤差 (MSE) と R2 を使用して比較されました。
事前トレーニングされた LLM は従来の単語埋め込みを上回り、AUROC では 38.3%、AUPRC では 14% の絶対最大ゲインを達成しました。
モデルを適応させると、パフォーマンスがさらに向上しました。(1) 自己教師あり微調整は、AUROC で 3.2%、AUPRC で 1.5% 増加しました。
(2) 半教師あり微調整は、自己教師あり微調整と比較して、AUROC では 1.8%、AUPRC では 2% 増加します。
(3) 基礎モデリングは、自己教師あり微調整と比較して、AUROC で 3.6%、AUPRC で 2.6% 減少しました。
事前トレーニングされた臨床 LLM は、予期せぬデータにおける術後リスクを予測する機会を提供します。基礎モデルのピークは、周術期ケアにおける LLM の一般化に向けたタスク非依存学習の可能性を示しています。

要約(オリジナル)

Postoperative risk predictions can inform effective perioperative care management and planning. We aimed to assess whether clinical large language models (LLMs) can predict postoperative risks using clinical texts with various training strategies. The main cohort involved 84,875 records from Barnes Jewish Hospital (BJH) system between 2018 and 2021. Methods were replicated on Beth Israel Deaconess’s MIMIC dataset. Both studies had mean duration of follow-up based on the length of postoperative ICU stay less than 7 days. For the BJH dataset, outcomes included 30-day mortality, pulmonary embolism (PE) and pneumonia. Three domain adaptation and finetuning strategies were implemented for BioGPT, ClinicalBERT and BioClinicalBERT: self-supervised objectives; incorporating labels with semi-supervised fine-tuning; and foundational modelling through multi-task learning. Model performance was compared using the area under the receiver operating characteristic curve (AUROC) and the area under the precision recall curve (AUPRC) for classification tasks, and mean squared error (MSE) and R2 for regression tasks. Pre-trained LLMs outperformed traditional word embeddings, with absolute maximal gains of 38.3% for AUROC and 14% for AUPRC. Adapting models further improved performance: (1) self-supervised finetuning by 3.2% for AUROC and 1.5% for AUPRC; (2) semi-supervised finetuning by 1.8% for AUROC and 2% for AUPRC, compared to self-supervised finetuning; (3) foundational modelling by 3.6% for AUROC and 2.6% for AUPRC, compared to self-supervised finetuning. Pre-trained clinical LLMs offer opportunities for postoperative risk predictions in unforeseen data, with peaks in foundational models indicating the potential of task-agnostic learning towards the generalizability of LLMs in perioperative care.

arxiv情報

著者 Bing Xue,Charles Alba,Joanna Abraham,Thomas Kannampallil,Chenyang Lu
発行日 2024-02-28 05:51:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, I.2.7 パーマリンク