Chinese Tiny LLM: Pretraining a Chinese-Centric Large Language Model

要約

この研究では、LLM の開発において中国語を優先するという極めて重要な移行を示す 2B 大規模言語モデル (LLM) である CT-LLM を紹介します。
独自にゼロから開始された CT-LLM は、主に中国語のテキスト データを組み込み、8,000 億の中国語トークン、3,000 億の英語トークン、1,000 億のコード トークンを含む 1 兆 2,000 億トークンの広範なコーパスを利用することで従来の方法論から分岐しています。
この戦略的な構成により、中国語の理解と処理におけるモデルの並外れた熟練度が促進され、この能力は調整技術によってさらに強化されます。
CHC-Bench で顕著なパフォーマンスを示した CT-LLM は、中国語タスクに優れており、SFT を通じて英語の熟練度を示しています。
この研究は、主に英語コーパスで LLM をトレーニングし、その後他の言語に適応させるという一般的なパラダイムに挑戦し、LLM トレーニング方法論の視野を広げます。
取得した大規模適切事前学習中国語コーパス (MAP-CC)、厳選された学際的な中国語ハードケース ベンチマーク (CHC-Bench)、および
2B サイズの Chinese Tiny LLM (CT-LLM) は、学術界と産業界の両方でさらなる探索と革新を促進し、より包括的で汎用性の高い言語モデルへの道を開くことを目指しています。

要約(オリジナル)

In this study, we introduce CT-LLM, a 2B large language model (LLM) that illustrates a pivotal shift towards prioritizing the Chinese language in developing LLMs. Uniquely initiated from scratch, CT-LLM diverges from the conventional methodology by primarily incorporating Chinese textual data, utilizing an extensive corpus of 1,200 billion tokens, including 800 billion Chinese tokens, 300 billion English tokens, and 100 billion code tokens. This strategic composition facilitates the model’s exceptional proficiency in understanding and processing Chinese, a capability further enhanced through alignment techniques. Demonstrating remarkable performance on the CHC-Bench, CT-LLM excels in Chinese language tasks, and showcases its adeptness in English through SFT. This research challenges the prevailing paradigm of training LLMs predominantly on English corpora and then adapting them to other languages, broadening the horizons for LLM training methodologies. By open-sourcing the full process of training a Chinese LLM, including a detailed data processing procedure with the obtained Massive Appropriate Pretraining Chinese Corpus (MAP-CC), a well-chosen multidisciplinary Chinese Hard Case Benchmark (CHC-Bench), and the 2B-size Chinese Tiny LLM (CT-LLM), we aim to foster further exploration and innovation in both academia and industry, paving the way for more inclusive and versatile language models.

arxiv情報

著者 Xinrun Du,Zhouliang Yu,Songyang Gao,Ding Pan,Yuyang Cheng,Ziyang Ma,Ruibin Yuan,Xingwei Qu,Jiaheng Liu,Tianyu Zheng,Xinchen Luo,Guorui Zhou,Wenhu Chen,Ge Zhang
発行日 2024-07-10 16:51:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク