ChiMed-GPT: A Chinese Medical Large Language Model with Full Training Regime and Better Alignment to Human Preferences

要約

近年、より優れた医療サービスへの需要の高まりにより、医療インフラの格差が浮き彫りになっています。
ビッグデータ、特にテキストが医療サービスの基盤を形成するため、医療分野に合わせた効果的な自然言語処理 (NLP) ソリューションが緊急に必要とされています。
事前トレーニング済みモデルを活用した従来のアプローチは、この分野で有望な結果をもたらし、現在の大規模言語モデル (LLM) は医療テキスト処理の高度な基盤を提供します。
しかし、ほとんどの医療 LLM は、教師あり微調整 (SFT) のみでトレーニングされています。SFT は LLM に医療指示を理解し、対応する能力を効率的に与えますが、領域知識を学習して人間の好みに合わせるのには効果的ではありません。
現在の医療 LLM のテキスト処理能力の向上を妨げるもう 1 つの工学的障壁は、コンテキストの長さが制限されていること (例: 2,048 トークン) であり、LLM が医療分野で頻繁に必要とされる長いコンテキストを処理することが困難になっています。
この研究では、中国の医療領域向けに明示的に設計された新しいベンチマーク LLM である ChiMed-GPT を提案します。これは、コンテキスト長が 4,096 トークンに拡大され、事前トレーニング、SFT、および RLHF による包括的なトレーニング体制を受けます。
情報抽出、質問応答、対話生成などの実世界のタスクの評価では、一般的なドメイン LLM よりも ChiMed-GPT の優れたパフォーマンスが実証されています。
さらに、医療分野における責任あるLLMのさらなる開発に貢献するために、ChiMed-GPTに患者の差別に関する態度尺度の実行を促すことで、潜在的なバイアスを分析します。
コードとモデルは https://github.com/synlp/ChiMed-GPT でリリースされています。

要約(オリジナル)

Recently, the increasing demand for superior medical services has highlighted the discrepancies in the medical infrastructure. With big data, especially texts, forming the foundation of medical services, there is an exigent need for effective natural language processing (NLP) solutions tailored to the healthcare domain. Conventional approaches leveraging pre-trained models present promising results in this domain and current large language models (LLMs) offer advanced foundation for medical text processing. However, most medical LLMs are trained only with supervised fine-tuning (SFT), even though it efficiently empowers LLMs to understand and respond to medical instructions but is ineffective in learning domain knowledge and aligning with human preference. Another engineering barrier that prevents current medical LLM from better text processing ability is their restricted context length (e.g., 2,048 tokens), making it hard for the LLMs to process long context, which is frequently required in the medical domain. In this work, we propose ChiMed-GPT, a new benchmark LLM designed explicitly for Chinese medical domain, with enlarged context length to 4,096 tokens and undergoes a comprehensive training regime with pre-training, SFT, and RLHF. Evaluations on real-world tasks including information extraction, question answering, and dialogue generation demonstrate ChiMed-GPT’s superior performance over general domain LLMs. Furthermore, we analyze possible biases through prompting ChiMed-GPT to perform attitude scales regarding discrimination of patients, so as to contribute to further responsible development of LLMs in the medical domain. The code and model are released at https://github.com/synlp/ChiMed-GPT.

arxiv情報

著者 Yuanhe Tian,Ruyi Gan,Yan Song,Jiaxing Zhang,Yongdong Zhang
発行日 2023-11-10 12:25:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク