Detecting the Clinical Features of Difficult-to-Treat Depression using Synthetic Data from Large Language Models

要約

治療困難なうつ病 (DTD) は、治療にもかかわらず重大な負担を経験し続けるうつ病障害についての、より広範かつより臨床的に包括的な観点として提案されています。
私たちは、日常的に収集されたナラティブ(フリーテキスト)電子医療記録(EHR)データを調査して、DTD の臨床症候群を捉える公表された予後因子を特定できる、大規模言語モデル(LLM)ベースのツールの開発を目指しました。
この作業では、LLM で生成された合成データ (GPT3.5) と非最大抑制 (NMS) アルゴリズムを使用して、BERT ベースのスパン抽出モデルをトレーニングします。
結果として得られるモデルは、実際の臨床データ内のさまざまな関連するプラス要因とマイナス要因に関連するスパン (つまり、患者が DTD 症候群に一致する可能性を増加または減少させるテキストのスパン) を抽出してラベルを付けることができます。
最大 20 個の異なる因子のセットに関する実際の臨床データでは良好な全体的なパフォーマンス (極性全体で 0.70 F1) を得ることが可能であり、次のような重要な DTD 因子のサブセットでは高いパフォーマンス (0.95 の精度で 0.85 F1) を得ることが可能であることを示します。
合成データのみを使用してモデルをトレーニングすることにより、虐待の歴史、感情障害の家族歴、病気の重症度、自殺傾向を分析します。
私たちの結果は、将来の医療アプリケーション、特に伝統的に機密性の高い医療データと人間の専門家による注釈が通常必要とされるアプリケーションにおいて有望であることを示しています。

要約(オリジナル)

Difficult-to-treat depression (DTD) has been proposed as a broader and more clinically comprehensive perspective on a person’s depressive disorder where despite treatment, they continue to experience significant burden. We sought to develop a Large Language Model (LLM)-based tool capable of interrogating routinely-collected, narrative (free-text) electronic health record (EHR) data to locate published prognostic factors that capture the clinical syndrome of DTD. In this work, we use LLM-generated synthetic data (GPT3.5) and a Non-Maximum Suppression (NMS) algorithm to train a BERT-based span extraction model. The resulting model is then able to extract and label spans related to a variety of relevant positive and negative factors in real clinical data (i.e. spans of text that increase or decrease the likelihood of a patient matching the DTD syndrome). We show it is possible to obtain good overall performance (0.70 F1 across polarity) on real clinical data on a set of as many as 20 different factors, and high performance (0.85 F1 with 0.95 precision) on a subset of important DTD factors such as history of abuse, family history of affective disorder, illness severity and suicidality by training the model exclusively on synthetic data. Our results show promise for future healthcare applications especially in applications where traditionally, highly confidential medical data and human-expert annotation would normally be required.

arxiv情報

著者 Isabelle Lorge,Dan W. Joyce,Niall Taylor,Alejo Nevado-Holgado,Andrea Cipriani,Andrey Kormilitzin
発行日 2024-02-12 13:34:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク