Towards Building Multilingual Language Model for Medicine

要約

この論文では、さまざまな地域のより広範で言語的に多様な聴衆に利益をもたらす、オープンソースの医療用多言語言語モデルを開発することを目指しています。
一般に、私たちは次の側面からの貢献を紹介します。まず、多言語の医療特有の適応のために、MMedC と呼ばれる 6 つの主要言語を含む約 255 億のトークンを含む新しい多言語医療コーパスを構築し、自己回帰トレーニングを可能にします。
既存の一般的な LLM の場合。
2 番目に、医療における多言語 LLM の発展を監視するために、MMedBench と呼ばれる、根拠のある新しい多言語医療多肢選択質問応答ベンチマークを提案します。
3 番目に、多くの人気のあるオープンソースの大規模言語モデル (LLM) をベンチマークで評価し、さらに MMedC でさらに自己回帰トレーニングされたモデルも評価しました。その結果、MMedLM 2 と呼ばれる最終モデルは 70 億個のパラメーターのみで構成されました。
他のすべてのオープンソース モデルと比較して優れたパフォーマンスを実現し、MMedBench の GPT-4 にも匹敵します。
コード、モデルの重み、データセットなどのリソースを一般公開します。

要約(オリジナル)

In this paper, we aim to develop an open-source, multilingual language model for medicine, that the benefits a wider, linguistically diverse audience from different regions. In general, we present the contribution from the following aspects: first, for multilingual medical-specific adaptation, we construct a new multilingual medical corpus, that contains approximately 25.5B tokens encompassing 6 main languages, termed as MMedC, that enables auto-regressive training for existing general LLMs. second, to monitor the development of multilingual LLMs in medicine, we propose a new multilingual medical multi-choice question-answering benchmark with rationale, termed as MMedBench; third, we have assessed a number of popular, opensource large language models (LLMs) on our benchmark, along with those further auto-regressive trained on MMedC, as a result, our final model, termed as MMedLM 2, with only 7B parameters, achieves superior performance compared to all other open-source models, even rivaling GPT-4 on MMedBench. We will make the resources publicly available, including code, model weights, and datasets.

arxiv情報

著者 Pengcheng Qiu,Chaoyi Wu,Xiaoman Zhang,Weixiong Lin,Haicheng Wang,Ya Zhang,Yanfeng Wang,Weidi Xie
発行日 2024-02-21 17:47:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク