要約
大規模言語モデル (LLM) を医療に統合することには大きな可能性がありますが、課題にも直面しています。
医療などのドメイン向けに LLM を最初から事前トレーニングすることはリソースが大量に必要であり、多くの場合実行不可能です。
一方で、教師あり微調整 (SFT) のみに依存すると、自信過剰な予測が発生し、ドメイン固有の洞察が活用されない可能性があります。
これに応えて、ドメイン固有の継続事前トレーニング (DCPT)、SFT、および直接優先最適化 (DPO) を組み合わせた多段階トレーニング方法を提案します。
さらに、医療質問応答、平文、ナレッジ グラフ、対話を 3 つのトレーニング ステージに分割して含む 3Gb 中国医学 (ChiMed) データセットを公開しています。
当社のパイプライン Qilin-Med でトレーニングされた医療 LLM は、大幅なパフォーマンスの向上を示しています。
CPT フェーズと SFT フェーズでは、Qilin-Med は CMExam テスト セットでそれぞれ 38.4% と 40.0% の精度を達成しました。
基本モデル Baichuan-7B (精度: 33.5%) を 7.5% 上回りました。
DPO フェーズでは、Huatuuo-26M テスト セットで BLEU-1 で 16.66、ROUGE-1 で 27.44 のスコアを獲得し、SFT フェーズでさらなる改善をもたらしました (BLEU-1 で 12.69、ROUGE-1 で 24.21)。
さらに、取得拡張生成 (RAG) アプローチを通じてモデルのパフォーマンスをさらに強化しました。
実験では、Qilin-Med-RAG が CMExam で 42.8% の正解率を達成していることが実証されています。
これらの結果は、医療アプリケーション向けの LLM の構築における当社の新しいトレーニング アプローチの貢献を強調しています。
要約(オリジナル)
Integrating large language models (LLMs) into healthcare holds great potential but faces challenges. Pre-training LLMs from scratch for domains like medicine is resource-heavy and often unfeasible. On the other hand, sole reliance on Supervised Fine-tuning (SFT) can result in overconfident predictions and may not tap into domain-specific insights. In response, we present a multi-stage training method combining Domain-specific Continued Pre-training (DCPT), SFT, and Direct Preference Optimization (DPO). In addition, we publish a 3Gb Chinese Medicine (ChiMed) dataset, encompassing medical question answering, plain texts, knowledge graphs, and dialogues, segmented into three training stages. The medical LLM trained with our pipeline, Qilin-Med, shows substantial performance improvement. In the CPT and SFT phases, Qilin-Med achieved 38.4% and 40.0% accuracy on the CMExam test set, respectively. It outperformed the basemodel Baichuan-7B (accuracy: 33.5%), by 7.5%. In the DPO phase, it scored 16.66 in BLEU-1 and 27.44 in ROUGE-1 on the Huatuo-26M test set, bringing further improvement to the SFT phase (12.69 in BLEU-1 and 24.21 in ROUGE-1). Additionally, we have further enhanced the model’s performance through the Retrieval Augmented Generation (RAG) approach. Experiments demonstrate that Qilin-Med-RAG achieves an accuracy rate of 42.8% on CMExam. These results highlight the contribution of our novel training approach in building LLMs for medical applications.
arxiv情報
著者 | Qichen Ye,Junling Liu,Dading Chong,Peilin Zhou,Yining Hua,Fenglin Liu,Meng Cao,Ziming Wang,Xuxin Cheng,Zhu Lei,Zhenhua Guo |
発行日 | 2024-04-17 15:18:54+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google