Me LLaMA: Foundation Large Language Models for Medical Applications

要約

ChatGPT や LLaMA などの大規模言語モデル (LLM) の最近の進歩は、医療アプリケーションに革命をもたらす可能性を示唆していますが、臨床現場でのアプリケーションの適用では、医療固有のデータに関する専門的なトレーニングが不足しているため、限界が明らかになることがよくあります。
この課題に応えて、この研究では、基礎モデルである Me-LLaMA 13/70B とそのチャット強化バージョンである Me-LLaMA 13/70B-chat を含む新しい医療用 LLM ファミリである Me-LLaMA を紹介します。
大規模な医療データセットを使用した LLaMA2 の事前トレーニングと指示の調整。
当社の方法論は、129B トークンを含む大規模な継続的事前トレーニング データセット、214,000 サンプルを含む指示調整データセット、および 12 の 6 つの重要な医療タスクにわたる新しい医療評価ベンチマーク (MIBE) を含む、包括的なドメイン固有のデータ スイートを活用しています。
データセット。
MIBE を使用した広範な評価では、Me-LLaMA モデルが、ゼロショット、少数ショット、および教師あり学習能力において、既存のオープンソースの医療 LLM よりも全体的に優れたパフォーマンスを達成していることが示されています。
タスク固有の命令チューニングにより、Me-LLaMA モデルは 8 データセット中 7 で ChatGPT を上回り、8 データセット中 5 で GPT-4 を上回ります。
さらに、私たちは壊滅的な忘却問題を調査し、その結果、Me-LLaMA モデルがこの問題の軽減において他のオープンソースの医療 LLM よりも優れていることがわかりました。
Me-LLaMA は、生物医学データと臨床データの両方を使用する最大のオープンソース医療財団 LLM の 1 つです。
他のオープンソースの医療 LLM と比較して、一般タスクと医療タスクの両方で優れたパフォーマンスを示し、医療 AI アプリケーションにとって魅力的な選択肢となります。
モデル、データセット、評価スクリプトは https://github.com/BIDS-Xu-Lab/Me-LLaMA でリリースされています。

要約(オリジナル)

Recent advancements in large language models (LLMs) such as ChatGPT and LLaMA have hinted at their potential to revolutionize medical applications, yet their application in clinical settings often reveals limitations due to a lack of specialized training on medical-specific data. In response to this challenge, this study introduces Me-LLaMA, a novel medical LLM family that includes foundation models – Me-LLaMA 13/70B, along with their chat-enhanced versions – Me-LLaMA 13/70B-chat, developed through continual pre-training and instruction tuning of LLaMA2 using large medical datasets. Our methodology leverages a comprehensive domain-specific data suite, including a large-scale, continual pre-training dataset with 129B tokens, an instruction tuning dataset with 214k samples, and a new medical evaluation benchmark (MIBE) across six critical medical tasks with 12 datasets. Our extensive evaluation using the MIBE shows that Me-LLaMA models achieve overall better performance than existing open-source medical LLMs in zero-shot, few-shot and supervised learning abilities. With task-specific instruction tuning, Me-LLaMA models outperform ChatGPT on 7 out of 8 datasets and GPT-4 on 5 out of 8 datasets. In addition, we investigated the catastrophic forgetting problem, and our results show that Me-LLaMA models outperform other open-source medical LLMs in mitigating this issue. Me-LLaMA is one of the largest open-source medical foundation LLMs that use both biomedical and clinical data. It exhibits superior performance across both general and medical tasks compared to other open-source medical LLMs, rendering it an attractive choice for medical AI applications. We release our models, datasets, and evaluation scripts at: https://github.com/BIDS-Xu-Lab/Me-LLaMA.

arxiv情報

著者 Qianqian Xie,Qingyu Chen,Aokun Chen,Cheng Peng,Yan Hu,Fongci Lin,Xueqing Peng,Jimin Huang,Jeffrey Zhang,Vipina Keloth,Xinyu Zhou,Huan He,Lucila Ohno-Machado,Yonghui Wu,Hua Xu,Jiang Bian
発行日 2024-04-11 16:42:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク