Zhongjing: Enhancing the Chinese Medical Capabilities of Large Language Model through Expert Feedback and Real-world Multi-turn Dialogue

要約

大規模言語モデル (LLM) の最近の進歩により、ユーザーの意図の理解と応答において目覚ましい進歩が達成されました。
ただし、そのパフォーマンスは、漢方薬などの一部の専門分野における一般的なユースケースに比べて遅れています。
中国医学を LLM に組み込む既存の取り組みは、シングルターンおよび蒸留された対話データを使用した教師あり微調整 (SFT) に依存しています。
これらのモデルには、医師のような積極的な質問や複数回にわたる理解の能力が欠けており、安全性と専門性の専門家と常に対応を調整することができません。
この研究では、事前トレーニングからヒューマン フィードバックによる強化学習 (RLHF) までのトレーニング パイプライン全体を実装する初の中国医学 LLaMA ベースの LLM である Zhongjing を紹介します。
さらに、70,000 件の本物の医師と患者の対話からなる中国のマルチターン医療対話データセット CMtMedQA を導入します。これにより、複雑な対話と積極的な調査開始に対するモデルの機能が大幅に強化されます。
生物医学分野の固有の特性を考慮して、洗練されたアノテーション ルールと評価基準を定義します。
結果は、以前の最高のモデルで 50 倍のトレーニング データがあり、ChatGPT で 100 倍のパラメーターがあるにもかかわらず、私たちのモデルがさまざまな能力でベースラインを上回り、いくつかの能力で ChatGPT のパフォーマンスに匹敵することを示しています。
RLHF は、モデルの命令追従能力と安全性をさらに向上させます。また、さらなる研究のためにコード、データセット、モデルをリリースします。

要約(オリジナル)

Recent advances in Large Language Models (LLMs) have achieved remarkable breakthroughs in understanding and responding to user intents. However, their performance lag behind general use cases in some expertise domains, such as Chinese medicine. Existing efforts to incorporate Chinese medicine into LLMs rely on Supervised Fine-Tuning (SFT) with single-turn and distilled dialogue data. These models lack the ability for doctor-like proactive inquiry and multi-turn comprehension and cannot always align responses with safety and professionalism experts. In this work, we introduce Zhongjing, the first Chinese medical LLaMA-based LLM that implements an entire training pipeline from pre-training to reinforcement learning with human feedback (RLHF). Additionally, we introduce a Chinese multi-turn medical dialogue dataset of 70,000 authentic doctor-patient dialogues, CMtMedQA, which significantly enhances the model’s capability for complex dialogue and proactive inquiry initiation. We define a refined annotation rule and evaluation criteria given the biomedical domain’s unique characteristics. Results show that our model outperforms baselines in various capacities and matches the performance of ChatGPT in a few abilities, despite having 50x training data with previous best model and 100x parameters with ChatGPT. RLHF further improves the model’s instruction-following ability and safety.We also release our code, datasets and model for further research.

arxiv情報

著者 Songhua Yang,Hanjie Zhao,Senbin Zhu,Guangyu Zhou,Hongfei Xu,Yuxiang Jia,Hongying Zan
発行日 2023-08-14 02:59:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク