要約
大規模言語モデル (LLM) をダウンストリーム タスクで適切に実行するには、数兆個のトークンを超える事前トレーニングが必要です。
これには通常、トレーニングを高速化するための安定した分散トレーニング フレームワークに加えて、多数の強力な計算デバイスが必要になります。
AI/ML を活用するアプリケーションの増加により、高価な従来のアクセラレータ (GPU など) が不足しており、スケーラブルでコスト効率の高い代替の専用アクセラレータの必要性が生じています。
AWS Trainium は、大規模な深層学習モデルのトレーニングを目的として構築された第 2 世代の機械学習アクセラレーターです。
対応するインスタンスである Amazon EC2 trn1 は、LLM トレーニング用の GPU インスタンスの代替品です。
ただし、trn1 で数十億のパラメータを使用して LLM をトレーニングすることは、ソフトウェア エコシステムが比較的初期段階にあるため、困難です。
このペーパーでは、1.8 兆トークンを超える trn1 インスタンスを使用して事前トレーニングされた 70 億パラメーターのデコーダー専用 LLM である HLAT を紹介します。
HLAT のパフォーマンスは、それぞれ NVIDIA GPU と Google TPU でトレーニングされた LLaMA や OpenLLaMA などの一般的なオープンソース ベースライン モデルに対してベンチマークされます。
さまざまな評価タスクにおいて、HLAT がベースラインと同等のモデル品質を達成していることを示します。
また、効率的なトレーニングを実現するために AWS Trainium 用にカスタマイズされた分散トレーニング ライブラリである Neuron 分散トレーニング ライブラリ (NDTL) を使用するベストプラクティスも共有します。
私たちの研究は、NDTL を利用した AWS Trainium が、高いパフォーマンスとコスト効率で最先端の LLM モデルを適切に事前トレーニングできることを示しています。
要約(オリジナル)
Getting large language models (LLMs) to perform well on the downstream tasks requires pre-training over trillions of tokens. This typically demands a large number of powerful computational devices in addition to a stable distributed training framework to accelerate the training. The growing number of applications leveraging AI/ML had led to a scarcity of the expensive conventional accelerators (such as GPUs), which begs the need for the alternative specialized-accelerators that are scalable and cost-efficient. AWS Trainium is the second-generation machine learning accelerator that has been purposely built for training large deep learning models. Its corresponding instance, Amazon EC2 trn1, is an alternative to GPU instances for LLM training. However, training LLMs with billions of parameters on trn1 is challenging due to its relatively nascent software ecosystem. In this paper, we showcase HLAT: a 7 billion parameter decoder-only LLM pre-trained using trn1 instances over 1.8 trillion tokens. The performance of HLAT is benchmarked against popular open source baseline models including LLaMA and OpenLLaMA, which have been trained on NVIDIA GPUs and Google TPUs, respectively. On various evaluation tasks, we show that HLAT achieves model quality on par with the baselines. We also share the best practice of using the Neuron Distributed Training Library (NDTL), a customized distributed training library for AWS Trainium to achieve efficient training. Our work demonstrates that AWS Trainium powered by the NDTL is able to successfully pre-train state-of-the-art LLM models with high performance and cost-effectiveness.
arxiv情報
著者 | Haozheng Fan,Hao Zhou,Guangtai Huang,Parameswaran Raman,Xinwei Fu,Gaurav Gupta,Dhananjay Ram,Yida Wang,Jun Huan |
発行日 | 2024-04-16 15:02:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google