PanGu-Σ: Towards Trillion Parameter Language Model with Sparse Heterogeneous Computing

要約

大規模な言語モデルのスケーリングにより、自然言語の理解、生成、推論が大幅に改善されました。
この作業では、Ascend 910 AI プロセッサと MindSpore フレームワークのクラスターで 1 兆個のパラメーターの言語モデルをトレーニングするシステムを開発し、PanGu-{\Sigma} という名前の 1.085T パラメーターを持つ言語モデルを提示します。
PanGu-{\alpha} 固有のパラメーターを使用して、密な Transformer モデルをランダム ルート エキスパート (RRE) を使用して疎モデルに拡張し、Expert Computation and Storage Separation (ECSS) を使用して 329B トークンでモデルを効率的にトレーニングします。
これにより、ヘテロジニアス コンピューティングによるトレーニング スループットが 6.3 倍向上しました。
私たちの実験結果は、PanGu-{\Sigma} がさまざまな中国語 NLP ダウンストリーム タスクのゼロショット学習において最先端のパフォーマンスを提供することを示しています。
また、オープンドメイン対話、質問応答、機械翻訳、コード生成などのアプリケーションデータを微調整すると、強力な能力を発揮します。

要約(オリジナル)

The scaling of large language models has greatly improved natural language understanding, generation, and reasoning. In this work, we develop a system that trained a trillion-parameter language model on a cluster of Ascend 910 AI processors and MindSpore framework, and present the language model with 1.085T parameters named PanGu-{\Sigma}. With parameter inherent from PanGu-{\alpha}, we extend the dense Transformer model to sparse one with Random Routed Experts (RRE), and efficiently train the model over 329B tokens by using Expert Computation and Storage Separation(ECSS). This resulted in a 6.3x increase in training throughput through heterogeneous computing. Our experimental findings show that PanGu-{\Sigma} provides state-of-the-art performance in zero-shot learning of various Chinese NLP downstream tasks. Moreover, it demonstrates strong abilities when fine-tuned in application data of open-domain dialogue, question answering, machine translation and code generation.

arxiv情報

著者 Xiaozhe Ren,Pingyi Zhou,Xinfan Meng,Xinjing Huang,Yadao Wang,Weichao Wang,Pengfei Li,Xiaoda Zhang,Alexander Podolskiy,Grigory Arshinov,Andrey Bout,Irina Piontkovskaya,Jiansheng Wei,Xin Jiang,Teng Su,Qun Liu,Jun Yao
発行日 2023-03-20 03:39:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク