Do We Still Need Clinical Language Models?

要約

大規模言語モデル (LLM) のスケーリングにおける最近の進歩により、多くの NLP タスクが改善されましたが、主に一般的な Web テキストでトレーニングされたこれらのモデルが、臨床テキストなどの高度に専門化された安全性が重要なドメインで適切なツールであるかどうかは不明のままです。
最近の結果は、LLM が驚くべき量の医学知識をエンコードすることを示唆しています。
これは、より小さなドメイン固有言語モデルの有用性に関する重要な問題を提起します。
汎用ドメイン LLM の成功により、特殊な臨床モデルの必要性はまだありますか?
この問題を調査するために、220M から 175B パラメーターの範囲の 12 の言語モデルの広範な経験的分析を実施し、電子医療記録を解析して推論する能力をテストする 3 つの異なる臨床タスクでのパフォーマンスを測定します。
実験の一環として、MIMIC III および IV の臨床ノートに基づいて T5-Base および T5-Large モデルをゼロからトレーニングし、臨床トークンの効率を直接調査します。
限られた注釈付きデータで微調整した場合でも、比較的小規模な専門的な臨床モデルが、すべてのインコンテキスト学習アプローチよりも大幅に優れていることを示しています。
さらに、臨床トークンの事前トレーニングにより、一般的なテキストでトレーニングされたはるかに大きな言語モデルと一致するか、それを上回る、より小さく、よりパラメーター効率の高いモデルが可能になることがわかりました。
PhysioNet Credentialed Health Data ライセンスおよびデータ使用契約の下で使用されるコードとモデルをリリースします。

要約(オリジナル)

Although recent advances in scaling large language models (LLMs) have resulted in improvements on many NLP tasks, it remains unclear whether these models trained primarily with general web text are the right tool in highly specialized, safety critical domains such as clinical text. Recent results have suggested that LLMs encode a surprising amount of medical knowledge. This raises an important question regarding the utility of smaller domain-specific language models. With the success of general-domain LLMs, is there still a need for specialized clinical models? To investigate this question, we conduct an extensive empirical analysis of 12 language models, ranging from 220M to 175B parameters, measuring their performance on 3 different clinical tasks that test their ability to parse and reason over electronic health records. As part of our experiments, we train T5-Base and T5-Large models from scratch on clinical notes from MIMIC III and IV to directly investigate the efficiency of clinical tokens. We show that relatively small specialized clinical models substantially outperform all in-context learning approaches, even when finetuned on limited annotated data. Further, we find that pretraining on clinical tokens allows for smaller, more parameter-efficient models that either match or outperform much larger language models trained on general text. We release the code and the models used under the PhysioNet Credentialed Health Data license and data use agreement.

arxiv情報

著者 Eric Lehman,Evan Hernandez,Diwakar Mahajan,Jonas Wulff,Micah J. Smith,Zachary Ziegler,Daniel Nadler,Peter Szolovits,Alistair Johnson,Emily Alsentzer
発行日 2023-02-16 05:08:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク