要約
大規模言語モデル (LLM) をヘルスケアに統合することには可能性がありますが、課題にも直面しています。
医療などのドメインの LLM を直接事前トレーニングすることはリソースが大量に必要であり、場合によっては実行不可能です。
教師あり微調整 (SFT) のみに依存すると、自信過剰な予測が発生し、ドメイン固有の洞察が活用されない可能性があります。
これらの課題に対処するために、ドメイン固有の継続事前トレーニング (DCPT)、SFT、および直接優先最適化 (DPO) を組み合わせた多段階トレーニング方法を提案します。
私たちの研究の注目すべき貢献は、3 つのトレーニング段階に分割された医療質問応答、プレーン テキスト、ナレッジ グラフ、対話を含む 3Gb 中国医学 (ChiMed) データセットの導入です。
当社のパイプライン Qilin-Med でトレーニングされた医療 LLM は、パフォーマンスが大幅に向上しました。
CPT フェーズと SFT フェーズでは、CMExam で 38.4% と 40.0% の精度を達成し、Baichuan-7B の 33.5% を上回りました。
DPO フェーズでは、Huatuuo-26M テスト セットで、BLEU-1 で 16.66、ROUGE1 で 27.44 のスコアを獲得し、SFT の 12.69 と 24.21 を上回りました。
これは、医療アプリケーション向けに LLM を改良する際の当社のトレーニング アプローチの強みを強調しています。
要約(オリジナル)
Integrating large language models (LLMs) into healthcare presents potential but faces challenges. Directly pre-training LLMs for domains like medicine is resource-heavy and sometimes unfeasible. Sole reliance on Supervised Fine-tuning (SFT) can result in overconfident predictions and may not tap into domain specific insights. Addressing these challenges, we present a multi-stage training method combining Domain-specific Continued Pre-training (DCPT), SFT, and Direct Preference Optimization (DPO). A notable contribution of our study is the introduction of a 3Gb Chinese Medicine (ChiMed) dataset, encompassing medical question answering, plain texts, knowledge graphs, and dialogues, segmented into three training stages. The medical LLM trained with our pipeline, Qilin-Med, exhibits significant performance boosts. In the CPT and SFT phases, it achieves 38.4% and 40.0% accuracy on the CMExam, surpassing Baichuan-7B’s 33.5%. In the DPO phase, on the Huatuo-26M test set, it scores 16.66 in BLEU-1 and 27.44 in ROUGE1, outperforming the SFT’s 12.69 and 24.21. This highlights the strength of our training approach in refining LLMs for medical applications.
arxiv情報
著者 | Qichen Ye,Junling Liu,Dading Chong,Peilin Zhou,Yining Hua,Andrew Liu |
発行日 | 2023-10-13 13:17:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google