TCM-GPT: Efficient Pre-training of Large Language Models for Domain Adaptation in Traditional Chinese Medicine

要約

事前学習と微調整は、様々な自然言語処理(NLP)タスクにおいて有望なパラダイムとして浮上している。事前学習された大規模言語モデル(LLM)の有効性はさらに強化され、医学分野、特に中国伝統医学(TCM)の文脈での応用の可能性を持っている。しかし、これらの一般的なモデルを特定のドメインに適用すると、ドメイン知識の不足、独自の目的、計算効率などの課題により、最適な結果が得られないことが多い。さらに、中国伝統医学のような特殊な領域における有効性は、包括的な評価が必要である。上記の問題を解決するために、我々はドメインに特化したTCMDA(TCM Domain Adaptation)アプローチを提案する。具体的には、まず一般的なコーパスからドメインキーワードを抽出し、大規模な中医学専用コーパスTCM-Corpus-1Bを構築する。次に、TCMDAはLoRAを活用し、事前学習と微調整のために、事前学習モデルの重みを凍結し、ランク分解行列を用いて特定の密な層を効率的に学習し、モデルをTCM関連タスク、すなわちTCM-GPT-7Bに効率的に合わせる。さらに、中医学検査と中医学診断を含む2つの中医学タスクについて広範な実験を行った。TCM-GPT-7Bは両方のデータセットで最高のパフォーマンスを示し、それぞれ17%と12%の相対的な精度向上で他のモデルを上回った。我々の知る限り、本研究は70億のパラメータを持つ大規模言語モデルの中医学領域における領域適応の先駆的検証である。今後、TCMCorpus-1BとTCM-GPT-7Bの両モデルを公開し、中医学と自然言語学の学際的な発展を促進し、さらなる研究の基礎とする予定である。

要約(オリジナル)

Pre-training and fine-tuning have emerged as a promising paradigm across various natural language processing (NLP) tasks. The effectiveness of pretrained large language models (LLM) has witnessed further enhancement, holding potential for applications in the field of medicine, particularly in the context of Traditional Chinese Medicine (TCM). However, the application of these general models to specific domains often yields suboptimal results, primarily due to challenges like lack of domain knowledge, unique objectives, and computational efficiency. Furthermore, their effectiveness in specialized domains, such as Traditional Chinese Medicine, requires comprehensive evaluation. To address the above issues, we propose a novel domain specific TCMDA (TCM Domain Adaptation) approach, efficient pre-training with domain-specific corpus. Specifically, we first construct a large TCM-specific corpus, TCM-Corpus-1B, by identifying domain keywords and retreving from general corpus. Then, our TCMDA leverages the LoRA which freezes the pretrained model’s weights and uses rank decomposition matrices to efficiently train specific dense layers for pre-training and fine-tuning, efficiently aligning the model with TCM-related tasks, namely TCM-GPT-7B. We further conducted extensive experiments on two TCM tasks, including TCM examination and TCM diagnosis. TCM-GPT-7B archived the best performance across both datasets, outperforming other models by relative increments of 17% and 12% in accuracy, respectively. To the best of our knowledge, our study represents the pioneering validation of domain adaptation of a large language model with 7 billion parameters in TCM domain. We will release both TCMCorpus-1B and TCM-GPT-7B model once accepted to facilitate interdisciplinary development in TCM and NLP, serving as the foundation for further study.

arxiv情報

著者 Guoxing Yang,Jianyu Shi,Zan Wang,Xiaohong Liu,Guangyu Wang
発行日 2023-11-03 08:54:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL パーマリンク