要約
GPT-3、OPT、LLaMA などの大規模言語モデル (LLM) は、幅広いタスクにおいて顕著な精度を実証しています。
ただし、これらのモデルのトレーニングには多額の費用がかかる可能性があり、多くの場合、数か月間継続的に動作させるために数万の GPU が必要になります。
通常、このトレーニングは、同種の高速リモート ダイレクト メモリ アクセス (RDMA) ネットワーク インターフェイス カード (NIC) を備えた特殊な GPU クラスターで実行されます。
このような専用クラスターの取得と維持は困難です。
Megatron-LM や Megatron-DeepSpeed などの現在の LLM トレーニング フレームワークは、主に同種のクラスター設定内でトレーニングを最適化することに重点を置いています。
このペーパーでは、異種 NIC 環境上で慎重に作成されたデータとモデルの並列化戦略を採用する、LLM のトレーニング フレームワークである Holmes について紹介します。
私たちの主な技術的貢献は、接続された NIC の特性に基づいて、LLM トレーニングの個別の計算タスクレットを GPU デバイスの特定のグループにインテリジェントに割り当てる新しいスケジューリング方法にあります。
さらに、パイプライン並列技術を利用した私たちの提案されたフレームワークは、個別のクラスター内のノード間に高速相互接続がないシナリオでも、複数の GPU クラスターに対するスケーラビリティを実証します。
私たちは、異種 NIC 環境でさまざまなシナリオを含む包括的な実験を実施しました。
ほとんどの場合、当社のフレームワークは、同種の RDMA 対応ネットワーク (InfiniBand または RoCE) で達成可能なパフォーマンス レベルに近いパフォーマンス レベルを達成し、純粋なイーサネット環境内でのトレーニング効率を大幅に上回ります。
さらに、トレーニング効率の点で、当社のフレームワークが異種 NIC 環境下で他の主流の LLM フレームワークよりも優れており、それらのフレームワークとシームレスに統合できることを検証しました。
要約(オリジナル)
Large language models (LLMs) such as GPT-3, OPT, and LLaMA have demonstrated remarkable accuracy in a wide range of tasks. However, training these models can incur significant expenses, often requiring tens of thousands of GPUs for months of continuous operation. Typically, this training is carried out in specialized GPU clusters equipped with homogeneous high-speed Remote Direct Memory Access (RDMA) network interface cards (NICs). The acquisition and maintenance of such dedicated clusters is challenging. Current LLM training frameworks, like Megatron-LM and Megatron-DeepSpeed, focus primarily on optimizing training within homogeneous cluster settings. In this paper, we introduce Holmes, a training framework for LLMs that employs thoughtfully crafted data and model parallelism strategies over the heterogeneous NIC environment. Our primary technical contribution lies in a novel scheduling method that intelligently allocates distinct computational tasklets in LLM training to specific groups of GPU devices based on the characteristics of their connected NICs. Furthermore, our proposed framework, utilizing pipeline parallel techniques, demonstrates scalability to multiple GPU clusters, even in scenarios without high-speed interconnects between nodes in distinct clusters. We conducted comprehensive experiments that involved various scenarios in the heterogeneous NIC environment. In most cases, our framework achieves performance levels close to those achievable with homogeneous RDMA-capable networks (InfiniBand or RoCE), significantly exceeding training efficiency within the pure Ethernet environment. Additionally, we verified that our framework outperforms other mainstream LLM frameworks under heterogeneous NIC environment in terms of training efficiency and can be seamlessly integrated with them.
arxiv情報
著者 | Fei Yang,Shuang Peng,Ning Sun,Fangyu Wang,Ke Tan,Fu Wu,Jiezhong Qiu,Aimin Pan |
発行日 | 2023-12-06 15:27:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google