要約
近年、クローズドソースおよびオープンソースのものを含むさまざまな大規模言語モデル (LLM) が提案され、複数のベンチマークで新記録を継続的に樹立しています。
しかし、LLM の開発は、モデルをゼロからトレーニングするコストが高いこと、継続的な事前トレーニングが致命的な忘却につながることなど、依然としていくつかの問題に直面しています。このような問題の多くは、LLM の研究の流れに沿って対処されていますが、まだ重要ではありません。
実際的な限界は、多くの研究が、学習プロセスにおける事前トレーニングデータの使用を包括的に分析および最適化することなく、また、費用対効果の高い設定でLLMをトレーニングする際にそのようなデータを適切に編成および活用することなく、モデルサイズの拡大を過度に追求していることです。
この研究では、基盤モデルとして LLaMA2 を採用し、さらに 7,000 億のトークンで事前トレーニングされた 130 億のパラメーターを持つモデルである Ziya2 を提案します。そこでは、事前トレーニング技術に焦点を当て、データ中心の最適化を使用して学習プロセスを強化します。
さまざまなステージでのZiya2の。
実験によると、Ziya2 は複数のベンチマークにおいて他のモデルよりも大幅に優れており、特に代表的なオープンソースのものと比較して有望な結果が得られています。
Ziya2 (Base) は https://huggingface.co/IDEA-CCNL/Ziya2-13B-Base および https://modelscope.cn/models/Fengshenbang/Ziya2-13B-Base/summary でリリースされています。
要約(オリジナル)
Various large language models (LLMs) have been proposed in recent years, including closed- and open-source ones, continually setting new records on multiple benchmarks. However, the development of LLMs still faces several issues, such as high cost of training models from scratch, and continual pre-training leading to catastrophic forgetting, etc. Although many such issues are addressed along the line of research on LLMs, an important yet practical limitation is that many studies overly pursue enlarging model sizes without comprehensively analyzing and optimizing the use of pre-training data in their learning process, as well as appropriate organization and leveraging of such data in training LLMs under cost-effective settings. In this work, we propose Ziya2, a model with 13 billion parameters adopting LLaMA2 as the foundation model, and further pre-trained on 700 billion tokens, where we focus on pre-training techniques and use data-centric optimization to enhance the learning process of Ziya2 on different stages. Experiments show that Ziya2 significantly outperforms other models in multiple benchmarks especially with promising results compared to representative open-source ones. Ziya2 (Base) is released at https://huggingface.co/IDEA-CCNL/Ziya2-13B-Base and https://modelscope.cn/models/Fengshenbang/Ziya2-13B-Base/summary.
arxiv情報
著者 | Ruyi Gan,Ziwei Wu,Renliang Sun,Junyu Lu,Xiaojun Wu,Dixiang Zhang,Kunhao Pan,Ping Yang,Qi Yang,Jiaxing Zhang,Yan Song |
発行日 | 2023-11-06 17:49:34+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google