Publicly Shareable Clinical Large Language Model Built on Synthetic Clinical Notes

要約

患者の臨床メモを処理するために調整された大規模な言語モデルの開発は、厳格なプライバシー規制によりこれらのメモのアクセシビリティと使いやすさが制限されているために妨げられることがよくあります。
これらの課題に対処するために、私たちはまず、生物医学文献から抽出された公開されている症例報告を使用して、合成された大規模な臨床ノートを作成します。
次に、これらの合成メモを使用して、特殊な臨床大規模言語モデルであるアスクレピウスをトレーニングします。
Asclepius は合成データに基づいてトレーニングされていますが、実際の臨床ノートを使用して評価することで、実世界のアプリケーションでの潜在的なパフォーマンスを評価します。
GPT-3.5-turbo やその他のオープンソース代替モデルを含む、他のいくつかの大規模な言語モデルに対して Asclepius のベンチマークを行います。
合成メモを使用したアプローチをさらに検証するために、Asclepius と実際の臨床メモで訓練されたそのバリアントも比較します。
私たちの発見は、高性能の臨床言語モデルを構築する際に、合成臨床ノートが本物の臨床ノートの実行可能な代替品として機能できることを説得力をもって示しています。
この結論は、GPT-4 と医療専門家の両方によって実施された詳細な評価によって裏付けられています。
Asclepius の開発に使用される重み、コード、データを含むすべてのリソースは、将来の研究のために公開されています。

要約(オリジナル)

The development of large language models tailored for handling patients’ clinical notes is often hindered by the limited accessibility and usability of these notes due to strict privacy regulations. To address these challenges, we first create synthetic large-scale clinical notes using publicly available case reports extracted from biomedical literature. We then use these synthetic notes to train our specialized clinical large language model, Asclepius. While Asclepius is trained on synthetic data, we assess its potential performance in real-world applications by evaluating it using real clinical notes. We benchmark Asclepius against several other large language models, including GPT-3.5-turbo and other open-source alternatives. To further validate our approach using synthetic notes, we also compare Asclepius with its variants trained on real clinical notes. Our findings convincingly demonstrate that synthetic clinical notes can serve as viable substitutes for real ones when constructing high-performing clinical language models. This conclusion is supported by detailed evaluations conducted by both GPT-4 and medical professionals. All resources including weights, codes, and data used in the development of Asclepius are made publicly accessible for future research.

arxiv情報

著者 Sunjun Kweon,Junu Kim,Jiyoun Kim,Sujeong Im,Eunbyeol Cho,Seongsu Bae,Jungwoo Oh,Gyubok Lee,Jong Hak Moon,Seng Chan You,Seungjin Baek,Chang Hoon Han,Yoon Bin Jung,Yohan Jo,Edward Choi
発行日 2023-09-06 18:11:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク