Cerebras-GPT: Open Compute-Optimal Language Models Trained on the Cerebras Wafer-Scale Cluster

要約

【タイトル】Cerebras Wafer-Scale Clusterで学習したオープンなコンピュート最適化言語モデルCerebras-GPT

【要約】
– 大規模言語モデルの効率的な事前学習とスケーリング、オープンなデータセットとツールにより、大きな進歩がある。
– これらの進歩を組み合わせ、111Mから13Bのパラメータにスケーリングしたコンピュート最適化言語モデルCerebras-GPTファミリーを紹介する。
– ディープマインドのチンチラスケーリングルールに従って事前学習を効率化し、Eleuther PileデータセットでCerebras-GPTモデルをトレーニングする。
-Cerebras-GPTを他の公開されたモデルと比較し、全てのCerebras-GPTモデルが事前学習およびダウンストリームの目的において最先端のトレーニング効率を有することを示す。
– マキシマルアップデートパラメータ化($\mu$P)が大規模モデルのスケーリングをさらに改善できることを特徴づける。
– この論文は、コンピュート最適化モデルスケーリングを固定されたデータセットサイズでトレーニングしたモデルと比較する初めてのオープンかつ再現可能な作品であり、プレトレーニングされたモデルとコードを公開する。
– Cerebras-GPTモデルはHuggingFaceで利用可能である。

要約(オリジナル)

We study recent research advances that improve large language models through efficient pre-training and scaling, and open datasets and tools. We combine these advances to introduce Cerebras-GPT, a family of open compute-optimal language models scaled from 111M to 13B parameters. We train Cerebras-GPT models on the Eleuther Pile dataset following DeepMind Chinchilla scaling rules for efficient pre-training (highest accuracy for a given compute budget). We characterize the predictable power-law scaling and compare Cerebras-GPT with other publicly-available models to show all Cerebras-GPT models have state-of-the-art training efficiency on both pre-training and downstream objectives. We describe our learnings including how Maximal Update Parameterization ($\mu$P) can further improve large model scaling, improving accuracy and hyperparameter predictability at scale. We release our pre-trained models and code, making this paper the first open and reproducible work comparing compute-optimal model scaling to models trained on fixed dataset sizes. Cerebras-GPT models are available on HuggingFace: https://huggingface.co/cerebras.

arxiv情報

著者 Nolan Dey,Gurpreet Gosal,Zhiming,Chen,Hemant Khachane,William Marshall,Ribhu Pathria,Marvin Tom,Joel Hestness
発行日 2023-04-06 16:43:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL, cs.LG パーマリンク