要約
背景獣医臨床ナラティブは、複雑な疾患に対処するためのリソースとして、ほとんど未開拓のままである。ここでは、大規模言語モデル(ChatGPT)と以前に開発された正規表現(RegexT)の能力を比較し、獣医ナラティブの過体重ボディコンディションスコア(BCS)を特定する。方法4,415の匿名化された臨床ナラティブから、RegexTを使用するか、またはChatGPTに送信されたプロンプトにナラティブを追加して、モデルにBCS情報を返すように強制することで、BCS値を抽出した。データは比較のために手作業でレビューされた。結果RegexTの精度はChatGPT(89.3%、95%CI82.75-93.64%)よりも高かった(100%、95%CI94.81-100%)。しかし、ChatGPTの想起率(100%、95% CI 96.18-100%)は、RegexTの想起率(72.6%、95% CI 63.92-79.94%)よりかなり高かった。限界:ChatGPTの出力を向上させるには、微妙なプロンプトエンジニアリングが必要である。結論大規模な言語モデルは多様な機会を生み出し、複雑ではあるが、情報への直感的なインターフェースを提供する。
要約(オリジナル)
Background: Veterinary clinical narratives remain a largely untapped resource for addressing complex diseases. Here we compare the ability of a large language model (ChatGPT) and a previously developed regular expression (RegexT) to identify overweight body condition scores (BCS) in veterinary narratives. Methods: BCS values were extracted from 4,415 anonymised clinical narratives using either RegexT or by appending the narrative to a prompt sent to ChatGPT coercing the model to return the BCS information. Data were manually reviewed for comparison. Results: The precision of RegexT was higher (100%, 95% CI 94.81-100%) than the ChatGPT (89.3%; 95% CI82.75-93.64%). However, the recall of ChatGPT (100%. 95% CI 96.18-100%) was considerably higher than that of RegexT (72.6%, 95% CI 63.92-79.94%). Limitations: Subtle prompt engineering is needed to improve ChatGPT output. Conclusions: Large language models create diverse opportunities and, whilst complex, present an intuitive interface to information but require careful implementation to avoid unpredictable errors.
arxiv情報
著者 | Ivo S. Fins,Heather Davies,Sean Farrell,Jose R. Torres,Gina Pinchbeck,Alan D. Radford,Peter-John Noble |
発行日 | 2023-08-03 10:11:42+00:00 |
arxivサイト | arxiv_id(pdf) |