Zhongjing: Enhancing the Chinese Medical Capabilities of Large Language Model through Expert Feedback and Real-world Multi-turn Dialogue

要約

大規模言語モデル (LLM) の最近の進歩により、ユーザーの意図の理解と応答において目覚ましい進歩が達成されました。
ただし、そのパフォーマンスは、漢方薬などの一部の専門分野における一般的なユースケースに比べて遅れています。
中国医学を LLM に組み込む既存の取り組みは、シングルターンおよび蒸留された対話データを使用した教師あり微調整 (SFT) に依存しています。
これらのモデルには、医師のような積極的な質問や複数回にわたる理解の能力が欠けており、専門家の意図に応じた対応を行うことができません。
この研究では、継続的な事前トレーニング、SFT からヒューマン フィードバックからの強化学習 (RLHF) までのトレーニング パイプライン全体を実装する初の中国医学 LLaMA ベースの LLM である Zhongjing を紹介します。
さらに、70,000 件の本物の医師と患者の対話からなる中国のマルチターン医療対話データセット CMtMedQA を構築します。これにより、複雑な対話と積極的な調査開始に対するモデルの機能が大幅に強化されます。
また、生物医学分野の独自の特性を考慮して、洗練されたアノテーション ルールと評価基準も定義します。
広範な実験結果は、100 倍のパラメーターにもかかわらず、Zhongjing がさまざまな能力でベースラインを上回り、一部の能力では ChatGPT のパフォーマンスに匹敵することを示しています。
アブレーション研究では、各コンポーネントの貢献も実証されています。事前トレーニングによって医学的知識が向上し、RLHF によって指示に従う能力と安全性がさらに向上します。
コード、データセット、モデルは https://github.com/SupritYoung/Zhongjing で入手できます。

要約(オリジナル)

Recent advances in Large Language Models (LLMs) have achieved remarkable breakthroughs in understanding and responding to user intents. However, their performance lag behind general use cases in some expertise domains, such as Chinese medicine. Existing efforts to incorporate Chinese medicine into LLMs rely on Supervised Fine-Tuning (SFT) with single-turn and distilled dialogue data. These models lack the ability for doctor-like proactive inquiry and multi-turn comprehension and cannot align responses with experts’ intentions. In this work, we introduce Zhongjing, the first Chinese medical LLaMA-based LLM that implements an entire training pipeline from continuous pre-training, SFT, to Reinforcement Learning from Human Feedback (RLHF). Additionally, we construct a Chinese multi-turn medical dialogue dataset of 70,000 authentic doctor-patient dialogues, CMtMedQA, which significantly enhances the model’s capability for complex dialogue and proactive inquiry initiation. We also define a refined annotation rule and evaluation criteria given the unique characteristics of the biomedical domain. Extensive experimental results show that Zhongjing outperforms baselines in various capacities and matches the performance of ChatGPT in some abilities, despite the 100x parameters. Ablation studies also demonstrate the contributions of each component: pre-training enhances medical knowledge, and RLHF further improves instruction-following ability and safety. Our code, datasets, and models are available at https://github.com/SupritYoung/Zhongjing.

arxiv情報

著者 Songhua Yang,Hanjie Zhao,Senbin Zhu,Guangyu Zhou,Hongfei Xu,Yuxiang Jia,Hongying Zan
発行日 2023-12-28 15:20:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク