RT-Surv: Improving Mortality Prediction After Radiotherapy with Large Language Model Structuring of Large-Scale Unstructured Electronic Health Records

要約

放射線療法 (RT) では、効果のない治療を防ぐために、患者を正確に選択することが重要です。
構造化データに依存する従来の生存予測モデルは、多くの場合精度が不足します。
この研究では、大規模言語モデル (LLM) が非構造化電子医療記録 (EHR) データを構造化し、それによって包括的な臨床情報の統合を通じて生存予測の精度を向上させる可能性を探ります。
2013年から2023年の間に延世がんセンターでRT治療を受けた34,276人の患者のデータが分析され、構造化データと非構造化データの両方が含まれた。
オープンソース LLM を使用して、シングルショット学習を通じて非構造化 EHR データを構造化し、そのパフォーマンスをドメイン固有の医療 LLM およびより小規模なバリアントと比較しました。
生存予測モデルは、構造化データと LLM 構造化データの両方を組み込んだ、統計、機械学習、深層学習のアプローチを使用して開発されました。
臨床専門家は、LLM 構造化データの精度を評価しました。
オープンソース LLM は、追加のトレーニングなしで非構造化 EHR データの構造化において 87.5% の精度を達成し、精度が 35.8% にとどまったドメイン固有の医療 LLM を大幅に上回りました。
LLM が大きいほど、特に全身状態や疾患の程度など、患者の生存と密接に関連する臨床的に関連する特徴を抽出する際に、より効果的でした。
LLM 構造の臨床特徴を生存予測モデルに組み込むと、深層学習モデルの C インデックスが 0.737 から 0.820 に増加し、精度が大幅に向上しました。
これらのモデルは、臨床的に重要な要素を強調することによって、より解釈しやすくなりました。
この研究は、一般領域の LLM が、特別な医療訓練を受けていなくても、大規模な非構造化 EHR データを効果的に構造化し、臨床予測モデルの精度と解釈可能性を大幅に向上できることを示しています。

要約(オリジナル)

Accurate patient selection is critical in radiotherapy (RT) to prevent ineffective treatments. Traditional survival prediction models, relying on structured data, often lack precision. This study explores the potential of large language models (LLMs) to structure unstructured electronic health record (EHR) data, thereby improving survival prediction accuracy through comprehensive clinical information integration. Data from 34,276 patients treated with RT at Yonsei Cancer Center between 2013 and 2023 were analyzed, encompassing both structured and unstructured data. An open-source LLM was used to structure the unstructured EHR data via single-shot learning, with its performance compared against a domain-specific medical LLM and a smaller variant. Survival prediction models were developed using statistical, machine learning, and deep learning approaches, incorporating both structured and LLM-structured data. Clinical experts evaluated the accuracy of the LLM-structured data. The open-source LLM achieved 87.5% accuracy in structuring unstructured EHR data without additional training, significantly outperforming the domain-specific medical LLM, which reached only 35.8% accuracy. Larger LLMs were more effective, particularly in extracting clinically relevant features like general condition and disease extent, which closely correlated with patient survival. Incorporating LLM-structured clinical features into survival prediction models significantly improved accuracy, with the C-index of deep learning models increasing from 0.737 to 0.820. These models also became more interpretable by emphasizing clinically significant factors. This study shows that general-domain LLMs, even without specific medical training, can effectively structure large-scale unstructured EHR data, substantially enhancing the accuracy and interpretability of clinical predictive models.

arxiv情報

著者 Sangjoon Park,Chan Woo Wee,Seo Hee Choi,Kyung Hwan Kim,Jee Suk Chang,Hong In Yoon,Ik Jae Lee,Yong Bae Kim,Jaeho Cho,Ki Chang Keum,Chang Geol Lee,Hwa Kyung Byun,Woong Sub Koom
発行日 2024-09-13 05:12:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク