要約
この研究では、ローカライズド フィルタリング ベースのアテンション (LFA) が導入され、自然言語のローカルな依存関係に関する事前知識がアテンションに組み込まれます。
LFA に基づいて、21 億から 1,026 億の範囲のパラメーターを持つ大規模な言語モデルである Yuan 2.0 を開発、リリースしています。
高品質の事前トレーニングおよび微調整データセットを構築するためのデータ フィルタリングおよび生成方法が紹介されています。
不均一パイプライン並列、データ並列、およびオプティマイザ並列を備えた分散トレーニング方法が提案されています。これにより、ノード内通信の帯域幅要件が大幅に削減され、大規模な分散トレーニングで優れたパフォーマンスが実現されます。
Yuan 2.0 モデルは、既存のモデルと比較して、コード生成、数学の問題解決、チャットにおいて優れた能力を示します。
モデルの重みとソース コードを含む YUAN 2.0 の最新バージョンは、Github からアクセスできます。
要約(オリジナル)
In this work, the Localized Filtering-based Attention (LFA) is introduced to incorporate prior knowledge of local dependencies of natural language into Attention. Based on LFA, we develop and release Yuan 2.0, a large language model with parameters ranging from 2.1 billion to 102.6 billion. A data filtering and generation method is presented to build pretraining and fine-tuning dataset in high quality. A distributed training method with non-uniform pipeline parallel, data parallel, and optimizer parallel is proposed, which greatly reduces the bandwidth requirements of intra-node communication, and achieves good performance in large-scale distributed training. Yuan 2.0 models display impressive ability in code generation, math problem-solving, and chat compared with existing models. The latest version of YUAN 2.0, including model weights and source code, is accessible at Github.
arxiv情報
著者 | Shaohua Wu,Xudong Zhao,Shenling Wang,Jiangang Luo,Lingjun Li,Xi Chen,Bing Zhao,Wei Wang,Tong Yu,Rongguo Zhang,Jiahua Zhang,Chao Wang |
発行日 | 2023-11-27 13:01:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google