The Capability of Large Language Models to Measure Psychiatric Functioning

要約

本研究では、大規模な医学知識コーパス(Med-PaLM 2)を用いて明示的に学習させた大規模言語モデル(LLM)が、患者のインタビューや臨床描写から精神医学的機能を予測する能力を持つかどうかを調査した。これを評価するために、n=145のうつ病とn=115のPTSD評価とn=46の臨床症例研究が、高有病率/高併存障害(うつ病、不安障害、精神病、トラウマとストレス、嗜癖性障害)にわたって、プロンプトを用いて分析され、推定臨床スコアと診断名が抽出された。その結果、Med-PaLM 2は、さまざまな精神疾患の精神機能を評価できることが示された。特に、標準化された評価に基づくうつ病スコアの予測(精度範囲=0.80~0.84)は、人間の臨床評価者と統計的に区別できないものであったt(1,144) = 1.20; p = 0.23。この結果は、一般的な臨床言語モデルが、患者と臨床医の両方からの自由な機能記述に基づいて、柔軟に精神医学的リスクを予測できる可能性を示している。

要約(オリジナル)

The current work investigates the capability of Large language models (LLMs) that are explicitly trained on large corpuses of medical knowledge (Med-PaLM 2) to predict psychiatric functioning from patient interviews and clinical descriptions without being trained to do so. To assess this, n = 145 depression and n =115 PTSD assessments and n = 46 clinical case studies across high prevalence/high comorbidity disorders (Depressive, Anxiety, Psychotic, trauma and stress, Addictive disorders) were analyzed using prompts to extract estimated clinical scores and diagnoses. Results demonstrate that Med-PaLM 2 is capable of assessing psychiatric functioning across a range of psychiatric conditions with the strongest performance being the prediction of depression scores based on standardized assessments (Accuracy range= 0.80 – 0.84) which were statistically indistinguishable from human clinical raters t(1,144) = 1.20; p = 0.23. Results show the potential for general clinical language models to flexibly predict psychiatric risk based on free descriptions of functioning from both patients and clinicians.

arxiv情報

著者 Isaac R. Galatzer-Levy,Daniel McDuff,Vivek Natarajan,Alan Karthikesalingam,Matteo Malgaroli
発行日 2023-08-03 15:52:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク