要約
本研究では、21億から1026億のパラメータを持つ大規模言語モデルYuan 2.0を開発し、リリースする。自然言語の局所的依存性に関する事前知識をアテンションに組み込むために、局所フィルタリングに基づくアテンション(LFA)を導入する。データフィルタリングと生成システムにより、高品質な事前学習と微調整用データセットを構築する。非一様なパイプライン並列、データ並列、オプティマイザ並列を用いた分散学習法を提案し、ノード内通信に必要な帯域幅を大幅に削減し、大規模分散学習において良好な性能を達成する。YUAN 2.0モデルは、既存のモデルと比較して、コード生成、数学問題解決、チャットにおいて優れた能力を示す。モデルの重みとソースコードを含むYUAN 2.0の最新バージョンはGithubでアクセス可能です。
要約(オリジナル)
In this work, we develop and release Yuan 2.0, a series of large language models with parameters ranging from 2.1 billion to 102.6 billion. The Localized Filtering-based Attention (LFA) is introduced to incorporate prior knowledge of local dependencies of natural language into Attention. A data filtering and generating system is presented to build pre-training and fine-tuning dataset in high quality. A distributed training method with non-uniform pipeline parallel, data parallel, and optimizer parallel is proposed, which greatly reduces the bandwidth requirements of intra-node communication, and achieves good performance in large-scale distributed training. Yuan 2.0 models display impressive ability in code generation, math problem-solving, and chatting compared with existing models. The latest version of YUAN 2.0, including model weights and source code, is accessible at Github.
arxiv情報
著者 | Shaohua Wu,Xudong Zhao,Shenling Wang,Jiangang Luo,Lingjun Li,Xi Chen,Bing Zhao,Wei Wang,Tong Yu,Rongguo Zhang,Jiahua Zhang,Chao Wang |
発行日 | 2023-12-04 10:20:57+00:00 |
arxivサイト | arxiv_id(pdf) |