Qilin-Med: Multi-stage Knowledge Injection Advanced Medical Large Language Model


大規模言語モデル (LLM) を医療に統合することには大きな可能性がありますが、課題にも直面しています。
医療などのドメイン向けに LLM を最初から事前トレーニングすることはリソースが大量に必要であり、多くの場合実行不可能です。
一方で、教師あり微調整 (SFT) のみに依存すると、自信過剰な予測が発生し、ドメイン固有の洞察が活用されない可能性があります。
これに応えて、ドメイン固有の継続事前トレーニング (DCPT)、SFT、および直接優先最適化 (DPO) を組み合わせた多段階トレーニング方法を提案します。
さらに、医療質問応答、平文、ナレッジ グラフ、対話を 3 つのトレーニング ステージに分割して含む 3Gb 中国医学 (ChiMed) データセットを公開しています。
当社のパイプライン Qilin-Med でトレーニングされた医療 LLM は、大幅なパフォーマンスの向上を示しています。
CPT フェーズと SFT フェーズでは、Qilin-Med は CMExam テスト セットでそれぞれ 38.4% と 40.0% の精度を達成しました。
基本モデル Baichuan-7B (精度: 33.5%) を 7.5% 上回りました。
DPO フェーズでは、Huatuuo-26M テスト セットで BLEU-1 で 16.66、ROUGE-1 で 27.44 のスコアを獲得し、SFT フェーズでさらなる改善をもたらしました (BLEU-1 で 12.69、ROUGE-1 で 24.21)。
さらに、取得拡張生成 (RAG) アプローチを通じてモデルのパフォーマンスをさらに強化しました。
実験では、Qilin-Med-RAG が CMExam で 42.8% の正解率を達成していることが実証されています。
これらの結果は、医療アプリケーション向けの LLM の構築における当社の新しいトレーニング アプローチの貢献を強調しています。


Integrating large language models (LLMs) into healthcare holds great potential but faces challenges. Pre-training LLMs from scratch for domains like medicine is resource-heavy and often unfeasible. On the other hand, sole reliance on Supervised Fine-tuning (SFT) can result in overconfident predictions and may not tap into domain-specific insights. In response, we present a multi-stage training method combining Domain-specific Continued Pre-training (DCPT), SFT, and Direct Preference Optimization (DPO). In addition, we publish a 3Gb Chinese Medicine (ChiMed) dataset, encompassing medical question answering, plain texts, knowledge graphs, and dialogues, segmented into three training stages. The medical LLM trained with our pipeline, Qilin-Med, shows substantial performance improvement. In the CPT and SFT phases, Qilin-Med achieved 38.4% and 40.0% accuracy on the CMExam test set, respectively. It outperformed the basemodel Baichuan-7B (accuracy: 33.5%), by 7.5%. In the DPO phase, it scored 16.66 in BLEU-1 and 27.44 in ROUGE-1 on the Huatuo-26M test set, bringing further improvement to the SFT phase (12.69 in BLEU-1 and 24.21 in ROUGE-1). Additionally, we have further enhanced the model’s performance through the Retrieval Augmented Generation (RAG) approach. Experiments demonstrate that Qilin-Med-RAG achieves an accuracy rate of 42.8% on CMExam. These results highlight the contribution of our novel training approach in building LLMs for medical applications.


著者 Qichen Ye,Junling Liu,Dading Chong,Peilin Zhou,Yining Hua,Fenglin Liu,Meng Cao,Ziming Wang,Xuxin Cheng,Zhu Lei,Zhenhua Guo
発行日 2024-04-17 15:18:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク