PMC-LLaMA: Towards Building Open-source Language Models for Medicine

要約

最近、大規模言語モデル (LLM) は、自然言語理解における顕著な機能を実証しました。
これらのモデルは、日常会話や質問応答の状況では熟練していることを示しますが、医療アプリケーションなどの精度が必要な領域では、領域固有の知識が不足しているため、苦労することがよくあります。
このペーパーでは、PMC-LLaMA と呼ばれる、医療アプリケーション向けに特別に設計された強力なオープンソース言語モデルを構築する手順について説明します。
私たちの貢献は 3 つあります: (i) 汎用の基礎言語モデルを医療分野に適応させるプロセスを体系的に調査します。これには、480 万の生物医学学術論文と 30,000 の医学教科書の統合によるデータ中心の知識の注入が含まれます。
ドメイン固有の指示に合わせた包括的な微調整。
(ii) 命令チューニングのための大規模で包括的なデータセットに貢献します。
このデータセットには、医療上の質問応答 (QA)、推論の根拠、および会話による対話が含まれており、合計 2 億 200 万のトークンで構成されています。
(iii) 提案された各コンポーネントの有効性を実証するために、徹底的なアブレーション研究を実施します。
さまざまな公的医療質問応答ベンチマークで評価したところ、わずか 130 億個のパラメーターで構成される軽量の PMCLLaMA は、ChatGPT をも上回る優れたパフォーマンスを示しました。
すべてのモデル、コード、データセットは https://github.com/chaoyi-wu/PMC-LLaMA にあります。

要約(オリジナル)

Recently, Large Language Models (LLMs) have showcased remarkable capabilities in natural language understanding. While demonstrating proficiency in everyday conversations and question-answering situations, these models frequently struggle in domains that require precision, such as medical applications, due to their lack of domain-specific knowledge. In this paper, we describe the procedure for building a powerful, open-source language model specifically designed for medicine applications, termed as PMC-LLaMA. Our contributions are threefold: (i) we systematically investigate the process of adapting a general-purpose foundation language model towards medical domain, this involves data-centric knowledge injection through the integration of 4.8M biomedical academic papers and 30K medical textbooks, as well as comprehensive fine-tuning for alignment with domain-specific instructions; (ii) we contribute a large-scale, comprehensive dataset for instruction tuning. This dataset encompasses medical question-answering (QA), rationale for reasoning, and conversational dialogues, comprising a total of 202M tokens; (iii) we conduct thorough ablation studies to demonstrate the effectiveness of each proposed component. While evaluating on various public medical question-answering benchmarks, our lightweight PMCLLaMA, which consists of only 13 billion parameters, exhibits superior performance, even surpassing ChatGPT. All models, codes, datasets can be found in https://github.com/chaoyi-wu/PMC-LLaMA.

arxiv情報

著者 Chaoyi Wu,Weixiong Lin,Xiaoman Zhang,Ya Zhang,Yanfeng Wang,Weidi Xie
発行日 2023-08-25 14:08:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク