Ziya2: Data-centric Learning is All LLMs Need

要約

近年、クローズドソース、オープンソースを問わず、様々な大規模言語モデル(LLM)が提案され、複数のベンチマークで新記録を更新し続けている。しかし、LLMの開発には、ゼロからモデルを学習するための高いコストや、継続的な事前学習による致命的な忘却など、いくつかの課題が残されています。LLMの研究においては、このような多くの課題が解決されているが、多くの研究が、学習プロセスにおける事前学習データの利用や、費用対効果の高い設定でのLLMの学習における事前学習データの適切な整理・活用を包括的に分析・最適化することなく、モデルサイズの拡大を過度に追求していることが、重要かつ現実的な限界となっている。本研究では、基礎モデルとしてLLaMA2を採用し、さらに7000億トークンで事前学習した130億パラメータを持つモデルZiya2を提案する。ここでは、事前学習技術に焦点を当て、Ziya2の学習プロセスを様々な段階で強化するためにデータ中心最適化を使用する。我々は3つのデータ属性を定義し、異なるデータがLLMにどのような影響を与えるかを説明するために、まずデータ中心のスケーリング則を確立する。実験によると、Ziya2は複数のベンチマークにおいて他のモデルを大幅に凌駕しており、特に代表的なオープンソースのモデルと比較して有望な結果を示しています。Ziya2 (Base)はhttps://huggingface.co/IDEA-CCNL/Ziya2-13B-Base、https://modelscope.cn/models/Fengshenbang/Ziya2-13B-Base/summary。

要約(オリジナル)

Various large language models (LLMs) have been proposed in recent years, including closed- and open-source ones, continually setting new records on multiple benchmarks. However, the development of LLMs still faces several issues, such as high cost of training models from scratch, and continual pre-training leading to catastrophic forgetting, etc. Although many such issues are addressed along the line of research on LLMs, an important yet practical limitation is that many studies overly pursue enlarging model sizes without comprehensively analyzing and optimizing the use of pre-training data in their learning process, as well as appropriate organization and leveraging of such data in training LLMs under cost-effective settings. In this work, we propose Ziya2, a model with 13 billion parameters adopting LLaMA2 as the foundation model, and further pre-trained on 700 billion tokens, where we focus on pre-training techniques and use data-centric optimization to enhance the learning process of Ziya2 on different stages. We define three data attributes and firstly establish data-centric scaling laws to illustrate how different data impacts LLMs. Experiments show that Ziya2 significantly outperforms other models in multiple benchmarks especially with promising results compared to representative open-source ones. Ziya2 (Base) is released at https://huggingface.co/IDEA-CCNL/Ziya2-13B-Base and https://modelscope.cn/models/Fengshenbang/Ziya2-13B-Base/summary.

arxiv情報

著者 Ruyi Gan,Ziwei Wu,Renliang Sun,Junyu Lu,Xiaojun Wu,Dixiang Zhang,Kunhao Pan,Junqing He,Yuanhe Tian,Ping Yang,Qi Yang,Hao Wang,Jiaxing Zhang,Yan Song
発行日 2024-04-04 17:41:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク