Me LLaMA: Foundation Large Language Models for Medical Applications

要約

ChatGPT や LLaMA などの最近の大規模言語モデル (LLM) は、多くの AI アプリケーションで大きな期待を集めています。
ただし、医療業務におけるパフォーマンスは最適とは言えず、広範なドメイン固有のデータセットでトレーニングすることで改善できます。
この研究では、基礎モデルを含む医療用 LLM ファミリである Me LLaMA 13/70B とそのチャット強化バージョン – Me LLaMA 13/70B-chat を紹介します。これは、大規模なシステムを使用した LLaMA2 の継続的な事前トレーニングと命令チューニングを通じて開発されました。
医療データセット。
トレーニングと評価のためのドメイン固有のデータ スイートには、129B トークンを含む大規模な継続的な事前トレーニング データセット、214,000 サンプルを含む指示調整データセット、および 12 のデータセットを含む 6 つのタスクにわたる新しい医療評価ベンチマーク (MIBE) が含まれています。
MIBE を使用した広範な評価では、Me LLaMA モデルが、ゼロショット、少数ショット、および教師あり学習能力において、既存のオープンソースの医療 LLM よりも全体的に優れたパフォーマンスを達成していることが示されています。
ゼロショットのパフォーマンスは、8 つのデータセットのうち 7 つで ChatGPT と同等であり、わずかな差異は 3% 以内ですが、それでも GPT-4 と比較すると不十分です。
さらに、私たちは壊滅的な忘却問題を調査し、その結果、Me LLaMA モデルがこの問題の軽減において他のオープンソースの医療 LLM よりも優れていることがわかりました。
Me LLaMA は、生物医学データと臨床データの両方を使用する最大のオープンソース医療財団 LLM の 1 つです。
他のオープンソースの医療 LLM と比較して、一般タスクと医療タスクの両方で優れたパフォーマンスを示し、医療 AI アプリケーションにとって魅力的な選択肢となります。
モデル、データセット、評価スクリプトは https://github.com/BIDS-Xu-Lab/Me-LLaMA でリリースされています。

要約(オリジナル)

Recent large language models (LLMs) such as ChatGPT and LLaMA have shown great promise in many AI applications. However, their performance on medical tasks is suboptimal and can be improved by training on extensive domain-specific datasets. This study introduces Me LLaMA, a medical LLM family that includes foundation models – Me LLaMA 13/70B, along with their chat-enhanced versions – Me LLaMA 13/70B-chat, developed through continual pre-training and instruction tuning of LLaMA2 using large medical datasets. Our domain-specific data suite for training and evaluation includes a large-scale, continual pre-training dataset with 129B tokens, an instruction tuning dataset with 214k samples, and a new medical evaluation benchmark (MIBE) across six tasks with 12 datasets. Our extensive evaluation using the MIBE shows that Me LLaMA models achieve overall better performance than existing open-source medical LLMs in zero-shot, few-shot and supervised learning abilities. Their zero-shot performance is comparable with ChatGPT across 7 out of 8 datasets, with a slight variance of within 3%, and yet falls short when compared to GPT-4. In addition, we investigated the catastrophic forgetting problem, and our results show that Me LLaMA models outperform other open-source medical LLMs in mitigating this issue. Me LLaMA is one of the largest open-source medical foundation LLMs that use both biomedical and clinical data. It exhibits superior performance across both general and medical tasks compared to other open-source medical LLMs, rendering it an attractive choice for medical AI applications. We release our models, datasets, and evaluation scripts at: https://github.com/BIDS-Xu-Lab/Me-LLaMA.

arxiv情報

著者 Qianqian Xie,Qingyu Chen,Aokun Chen,Cheng Peng,Yan Hu,Fongci Lin,Xueqing Peng,Jimin Huang,Jeffrey Zhang,Vipina Keloth,Xingyu Zhou,Huan He,Lucila Ohno-Machado,Yonghui Wu,Hua Xu,Jiang Bian
発行日 2024-03-14 16:13:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク