MEDITRON-70B: Scaling Medical Pretraining for Large Language Models

要約

大規模言語モデル (LLM) は、医療知識へのアクセスを民主化する可能性があります。
LLM の医学知識と推論能力を活用し、向上させるために多くの努力がなされてきましたが、結果として得られるモデルはクローズドソース (PaLM、GPT-4 など) であるか、規模が限られている (<= 13B パラメータ) ため、LLM の能力が制限されています。 。 この取り組みでは、医療分野に適合した 7B および 70B パラメータを備えたオープンソース LLM スイートである MEDITRON をリリースすることで、大規模な医療 LLM へのアクセスを改善します。 MEDITRON は、Llama-2 (Nvidia の Megatron-LM 分散トレーナーの適応を通じて) を基盤としており、厳選された PubMed 論文、抄録、国際的に認められた医療ガイドラインを含む、包括的に厳選された医療コーパスで事前トレーニングを拡張します。 4 つの主要な医療ベンチマークを使用した評価では、タスク固有の微調整の前後で、いくつかの最先端のベースラインと比較して大幅なパフォーマンスの向上が示されています。 全体として、MEDITRON は、パラメーター クラスで最高の公開ベースラインと比較して 6% の絶対パフォーマンス向上を達成し、Llama-2 から微調整した最強のベースラインと比較して 3% の絶対パフォーマンス向上を達成しています。 クローズドソース LLM と比較して、MEDITRON-70B は GPT-3.5 および Med-PaLM を上回り、GPT-4 の 5% 以内、Med-PaLM-2 の 10% 以内にあります。 私たちは、より有能な医療 LLM のオープンソース開発を推進するために、医療事前トレーニング コーパスと MEDITRON モデルの重みをキュレーションするためのコードをリリースします。

要約(オリジナル)

Large language models (LLMs) can potentially democratize access to medical knowledge. While many efforts have been made to harness and improve LLMs’ medical knowledge and reasoning capacities, the resulting models are either closed-source (e.g., PaLM, GPT-4) or limited in scale (<= 13B parameters), which restricts their abilities. In this work, we improve access to large-scale medical LLMs by releasing MEDITRON: a suite of open-source LLMs with 7B and 70B parameters adapted to the medical domain. MEDITRON builds on Llama-2 (through our adaptation of Nvidia's Megatron-LM distributed trainer), and extends pretraining on a comprehensively curated medical corpus, including selected PubMed articles, abstracts, and internationally-recognized medical guidelines. Evaluations using four major medical benchmarks show significant performance gains over several state-of-the-art baselines before and after task-specific finetuning. Overall, MEDITRON achieves a 6% absolute performance gain over the best public baseline in its parameter class and 3% over the strongest baseline we finetuned from Llama-2. Compared to closed-source LLMs, MEDITRON-70B outperforms GPT-3.5 and Med-PaLM and is within 5% of GPT-4 and 10% of Med-PaLM-2. We release our code for curating the medical pretraining corpus and the MEDITRON model weights to drive open-source development of more capable medical LLMs.

arxiv情報

著者 Zeming Chen,Alejandro Hernández Cano,Angelika Romanou,Antoine Bonnet,Kyle Matoba,Francesco Salvi,Matteo Pagliardini,Simin Fan,Andreas Köpf,Amirkeivan Mohtashami,Alexandre Sallinen,Alireza Sakhaeirad,Vinitra Swamy,Igor Krawczuk,Deniz Bayazit,Axel Marmet,Syrielle Montariol,Mary-Anne Hartley,Martin Jaggi,Antoine Bosselut
発行日 2023-11-27 18:49:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク