要約
この作業では、21 億から 1,026 億の範囲のパラメータを持つ一連の大規模言語モデルである Yuan 2.0 を開発し、リリースします。
ローカライズされたフィルタリングベースのアテンション (LFA) は、自然言語のローカルな依存関係に関する事前知識をアテンションに組み込むために導入されています。
高品質の事前トレーニングおよび微調整データセットを構築するためのデータ フィルタリングおよび生成システムが紹介されています。
不均一パイプライン並列、データ並列、およびオプティマイザ並列を備えた分散トレーニング方法が提案されています。これにより、ノード内通信の帯域幅要件が大幅に削減され、大規模な分散トレーニングで優れたパフォーマンスが実現されます。
Yuan 2.0 モデルは、既存のモデルと比較して、コード生成、数学の問題解決、チャットにおいて優れた能力を示します。
モデルの重みとソース コードを含む YUAN 2.0 の最新バージョンは、Github からアクセスできます。
要約(オリジナル)
In this work, we develop and release Yuan 2.0, a series of large language models with parameters ranging from 2.1 billion to 102.6 billion. The Localized Filtering-based Attention (LFA) is introduced to incorporate prior knowledge of local dependencies of natural language into Attention. A data filtering and generating system is presented to build pre-training and fine-tuning dataset in high quality. A distributed training method with non-uniform pipeline parallel, data parallel, and optimizer parallel is proposed, which greatly reduces the bandwidth requirements of intra-node communication, and achieves good performance in large-scale distributed training. Yuan 2.0 models display impressive ability in code generation, math problem-solving, and chatting compared with existing models. The latest version of YUAN 2.0, including model weights and source code, is accessible at Github.
arxiv情報
著者 | Shaohua Wu,Xudong Zhao,Shenling Wang,Jiangang Luo,Lingjun Li,Xi Chen,Bing Zhao,Wei Wang,Tong Yu,Rongguo Zhang,Jiahua Zhang,Chao Wang |
発行日 | 2023-12-15 08:50:33+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google