MiniCPM: Unveiling the Potential of Small Language Models with Scalable Training Strategies

要約

最大数兆のパラメータを持つ大規模言語モデル (LLM) の開発に対する関心が高まっていますが、特に実験にかかる莫大なコストを考慮すると、リソース効率と実際の費用に関する懸念が生じています。
このシナリオは、リソース効率の高い代替手段として小型言語モデル (SLM) の可能性を探ることの重要性を強調しています。
これに関連して、MiniCPM、特に 1.2B および 2.4B の非埋め込みパラメーター バリアントを紹介します。これらは、それぞれのカテゴリで優れているだけでなく、7B ~ 13B LLM と同等の機能を実証します。
SLM に焦点を当てながら、私たちのアプローチは、将来の LLM 研究に向けてモデルとデータの両方の次元でスケーラビリティを示します。
モデルのスケーリングに関しては、安定した最適なスケーリングを実現するために広範なモデル風洞実験を採用しています。
データ スケーリングのために、継続的なトレーニングとドメイン適応に役立つ Warmup-Stable-Decay (WSD) 学習率スケジューラー (LRS) を導入します。
WSD LRS で発生した興味深いトレーニング ダイナミクスの詳細な分析を紹介します。
WSD LRS を使用すると、モデルとデータの両方の軸で広範な再トレーニング実験を行うことなく、データ モデルのスケーリング則を効率的に研究できるようになり、そこから Chinchilla Optimal よりもはるかに高い計算最適データ モデル比を導き出すことができます。
さらに、MiniCPM-DPO、MiniCPM-MoE、MiniCPM-128K などの MiniCPM ファミリも紹介します。これらの優れたパフォーマンスは、さまざまな SLM アプリケーションにおける MiniCPM の基盤をさらに強化します。
MiniCPM モデルは、 https://github.com/OpenBMB/MiniCPM で公開されています。

要約(オリジナル)

The burgeoning interest in developing Large Language Models (LLMs) with up to trillion parameters has been met with concerns regarding resource efficiency and practical expense, particularly given the immense cost of experimentation. This scenario underscores the importance of exploring the potential of Small Language Models (SLMs) as a resource-efficient alternative. In this context, we introduce MiniCPM, specifically the 1.2B and 2.4B non-embedding parameter variants, not only excel in their respective categories but also demonstrate capabilities on par with 7B-13B LLMs. While focusing on SLMs, our approach exhibits scalability in both model and data dimensions for future LLM research. Regarding model scaling, we employ extensive model wind tunnel experiments for stable and optimal scaling. For data scaling, we introduce a Warmup-Stable-Decay (WSD) learning rate scheduler (LRS), conducive to continuous training and domain adaptation. We present an in-depth analysis of the intriguing training dynamics that occurred in the WSD LRS. With WSD LRS, we are now able to efficiently study data-model scaling law without extensive retraining experiments on both axes of model and data, from which we derive the much higher compute optimal data-model ratio than Chinchilla Optimal. Additionally, we introduce MiniCPM family, including MiniCPM-DPO, MiniCPM-MoE and MiniCPM-128K, whose excellent performance further cementing MiniCPM’s foundation in diverse SLM applications. MiniCPM models are available publicly at https://github.com/OpenBMB/MiniCPM .

arxiv情報

著者 Shengding Hu,Yuge Tu,Xu Han,Chaoqun He,Ganqu Cui,Xiang Long,Zhi Zheng,Yewei Fang,Yuxiang Huang,Weilin Zhao,Xinrong Zhang,Zheng Leng Thai,Kaihuo Zhang,Chongyi Wang,Yuan Yao,Chenyang Zhao,Jie Zhou,Jie Cai,Zhongwu Zhai,Ning Ding,Chao Jia,Guoyang Zeng,Dahai Li,Zhiyuan Liu,Maosong Sun
発行日 2024-04-09 15:36:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク