Evaluating ChatGPT text-mining of clinical records for obesity monitoring

要約

背景獣医臨床ナラティブは、複雑な疾患に対処するためのリソースとして、ほとんど未開拓のままである。ここでは、大規模言語モデル(ChatGPT)と以前に開発された正規表現(RegexT)の能力を比較し、獣医ナラティブの過体重ボディコンディションスコア(BCS)を特定する。方法4,415の匿名化された臨床ナラティブから、RegexTを使用するか、またはChatGPTに送信されたプロンプトにナラティブを追加して、モデルにBCS情報を返すように強制することで、BCS値を抽出した。データは比較のために手作業でレビューされた。結果RegexTの精度はChatGPT(89.3%、95%CI82.75-93.64%)よりも高かった(100%、95%CI94.81-100%)。しかし、ChatGPTの想起率(100%、95% CI 96.18-100%)は、RegexTの想起率(72.6%、95% CI 63.92-79.94%)よりかなり高かった。限界:ChatGPTの出力を向上させるには、微妙なプロンプトエンジニアリングが必要である。結論大規模な言語モデルは多様な機会を生み出し、複雑ではあるが、情報への直感的なインターフェースを提供する。

要約(オリジナル)

Background: Veterinary clinical narratives remain a largely untapped resource for addressing complex diseases. Here we compare the ability of a large language model (ChatGPT) and a previously developed regular expression (RegexT) to identify overweight body condition scores (BCS) in veterinary narratives. Methods: BCS values were extracted from 4,415 anonymised clinical narratives using either RegexT or by appending the narrative to a prompt sent to ChatGPT coercing the model to return the BCS information. Data were manually reviewed for comparison. Results: The precision of RegexT was higher (100%, 95% CI 94.81-100%) than the ChatGPT (89.3%; 95% CI82.75-93.64%). However, the recall of ChatGPT (100%. 95% CI 96.18-100%) was considerably higher than that of RegexT (72.6%, 95% CI 63.92-79.94%). Limitations: Subtle prompt engineering is needed to improve ChatGPT output. Conclusions: Large language models create diverse opportunities and, whilst complex, present an intuitive interface to information but require careful implementation to avoid unpredictable errors.

arxiv情報

著者 Ivo S. Fins,Heather Davies,Sean Farrell,Jose R. Torres,Gina Pinchbeck,Alan D. Radford,Peter-John Noble
発行日 2023-08-03 10:11:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.IR パーマリンク