Autocompletion of Chief Complaints in the Electronic Health Records using Large Language Models


主訴 (CC) は、医療を受ける主な理由や懸念事項を説明するため、患者の医療記録の重要な要素です。
ただし、医療提供者にとって、特に多忙な救急部門では、CC の文書化に時間がかかる場合があります。
この問題に対処するには、臨床メモ用に正確で適切にフォーマットされたフレーズや文章を提案するオートコンプリート ツールが、トリアージ看護師にとって貴重なリソースとなる可能性があります。
この研究では、テキスト生成技術を利用して、CC データを使用した機械学習モデルを開発しました。
私たちが提案する研究では、長短期記憶 (LSTM) モデルをトレーニングし、生物医学生成事前トレーニング済みトランスフォーマー (BioGPT) の 3 つの異なるバリアント、つまり、microsoft/biogpt、microsoft/BioGPT-Large、microsoft/BioGPT-Large を微調整します。
さらに、GPT-4 の OpenAI API を利用して、CC センテンスの例を組み込むことでプロンプトをチューニングします。
パープレキシティ スコア、修正 BERTScore、およびコサイン類似性スコアに基づいてモデルのパフォーマンスを評価します。
その結果、BioGPT-Large は他のモデルと比較して優れたパフォーマンスを発揮することがわかりました。
CC 生成時に一貫して 1.65 という著しく低いパープレキシティ スコアを達成しますが、ベースライン LSTM モデルは最高のパープレキシティ スコア 170 を達成します。さらに、提案されたモデルのパフォーマンスと GPT-4.0 の結果を評価および評価します。
私たちの研究は、BioGPT などの LLM を利用することが、医療現場で CC ドキュメントを生成するための効果的なオートコンプリート ツールの開発につながることを実証しています。


The Chief Complaint (CC) is a crucial component of a patient’s medical record as it describes the main reason or concern for seeking medical care. It provides critical information for healthcare providers to make informed decisions about patient care. However, documenting CCs can be time-consuming for healthcare providers, especially in busy emergency departments. To address this issue, an autocompletion tool that suggests accurate and well-formatted phrases or sentences for clinical notes can be a valuable resource for triage nurses. In this study, we utilized text generation techniques to develop machine learning models using CC data. In our proposed work, we train a Long Short-Term Memory (LSTM) model and fine-tune three different variants of Biomedical Generative Pretrained Transformers (BioGPT), namely microsoft/biogpt, microsoft/BioGPT-Large, and microsoft/BioGPT-Large-PubMedQA. Additionally, we tune a prompt by incorporating exemplar CC sentences, utilizing the OpenAI API of GPT-4. We evaluate the models’ performance based on the perplexity score, modified BERTScore, and cosine similarity score. The results show that BioGPT-Large exhibits superior performance compared to the other models. It consistently achieves a remarkably low perplexity score of 1.65 when generating CC, whereas the baseline LSTM model achieves the best perplexity score of 170. Further, we evaluate and assess the proposed models’ performance and the outcome of GPT-4.0. Our study demonstrates that utilizing LLMs such as BioGPT, leads to the development of an effective autocompletion tool for generating CC documentation in healthcare settings.


著者 K M Sajjadul Islam,Ayesha Siddika Nipu,Praveen Madiraju,Priya Deshpande
発行日 2024-01-11 18:06:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク