Narrative Feature or Structured Feature? A Study of Large Language Models to Identify Cancer Patients at Risk of Heart Failure

要約

がん治療は心毒性をもたらし、転帰や生存率に悪影響を与えることが知られています。
心不全(HF)のリスクがあるがん患者を特定することは、がん治療の成果と安全性を向上させるために重要です。
この研究では、従来の ML、時間認識長短期記憶 (T-LSTM)、大規模言語モデル (LLM) などの電子医療記録 (EHR) を使用して、心不全のリスクがあるがん患者を特定するための機械学習 (ML) モデルを検証しました。
構造化された医療法典から派生した新しい物語的特徴を使用します。
私たちは、肺がん、乳がん、および結腸直腸がんと診断されたフロリダ保健大学の患者 12,806 人のがんコホートを特定しました。そのうち 1,602 人ががん後に心不全を発症しました。
LLM の GatorTron-3.9B は最高の F1 スコアを達成し、従来のサポート ベクター マシンを 39%、T-LSTM 深層学習モデルを 7%、広く使用されているトランスフォーマー モデル BERT を 5.6% 上回りました。
分析の結果、提案されたナラティブ機能では機能密度が著しく増加し、パフォーマンスが向上したことが示されました。

要約(オリジナル)

Cancer treatments are known to introduce cardiotoxicity, negatively impacting outcomes and survivorship. Identifying cancer patients at risk of heart failure (HF) is critical to improving cancer treatment outcomes and safety. This study examined machine learning (ML) models to identify cancer patients at risk of HF using electronic health records (EHRs), including traditional ML, Time-Aware long short-term memory (T-LSTM), and large language models (LLMs) using novel narrative features derived from the structured medical codes. We identified a cancer cohort of 12,806 patients from the University of Florida Health, diagnosed with lung, breast, and colorectal cancers, among which 1,602 individuals developed HF after cancer. The LLM, GatorTron-3.9B, achieved the best F1 scores, outperforming the traditional support vector machines by 39%, the T-LSTM deep learning model by 7%, and a widely used transformer model, BERT, by 5.6%. The analysis shows that the proposed narrative features remarkably increased feature density and improved performance.

arxiv情報

著者 Ziyi Chen,Mengyuan Zhang,Mustafa Mohammed Ahmed,Yi Guo,Thomas J. George,Jiang Bian,Yonghui Wu
発行日 2024-03-18 02:42:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク