CO2: Efficient Distributed Training with Full Communication-Computation Overlap

要約

大規模言語モデルの根本的な成功は、大規模な分散トレーニング技術の効果的な実装にかかっています。
それにもかかわらず、高速通信の相互接続を特徴とする大規模で高性能なクラスターの構築は法外にコストがかかり、著名なエンティティのみがアクセスできます。
この取り組みでは、この障壁を低くし、帯域幅が制限されたクラスターを使用した大規模なトレーニングを民主化することを目指しています。
我々は、分散データ並列トレーニングにローカル更新および非同期通信を導入する CO2 と呼ばれる新しいアプローチを提案します。これにより、COcommunication と COmputation の完全な重複が容易になります。
CO2 は、通信帯域幅が非常に限られている大規模なマルチノード クラスター上でも、高い拡張性を実現できます。
さらに、収束とトレーニングの安定性を強化するために、CO2 と組み合わせた陳腐化ギャップ ペナルティと外部運動量クリッピング手法を提案します。
さらに、CO2 は、大規模なモデル トレーニングによるモデル状態のメモリ消費を軽減する、定評ある ZeRO シリーズ オプティマイザーとのシームレスな統合を示します。
また、厳密な上限の設定を伴う収束の数学的証明も提供します。
さらに、コンピュータービジョンと自然言語処理の分野における幅広いタスクを網羅する広範な実践的な実験を通じて、私たちの発見を検証します。
これらの実験は、最大 128 個の A100 GPU で構成される構成全体に展開した場合の、収束、一般化、およびスケーラビリティの観点から CO2 の機能を実証するのに役立ちます。
この結果は、800Gbps RDMA または 80Gbps TCP/IP ノード間接続を備えたクラスターに関係なく、スケーラビリティを大幅に向上させる CO2 の卓越した能力を強調しています。

要約(オリジナル)

The fundamental success of large language models hinges upon the efficacious implementation of large-scale distributed training techniques. Nevertheless, building a vast, high-performance cluster featuring high-speed communication interconnectivity is prohibitively costly, and accessible only to prominent entities. In this work, we aim to lower this barrier and democratize large-scale training with limited bandwidth clusters. We propose a new approach called CO2 that introduces local-updating and asynchronous communication to the distributed data-parallel training, thereby facilitating the full overlap of COmunication with COmputation. CO2 is able to attain a high scalability even on extensive multi-node clusters constrained by very limited communication bandwidth. We further propose the staleness gap penalty and outer momentum clipping techniques together with CO2 to bolster its convergence and training stability. Besides, CO2 exhibits seamless integration with well-established ZeRO-series optimizers which mitigate memory consumption of model states with large model training. We also provide a mathematical proof of convergence, accompanied by the establishment of a stringent upper bound. Furthermore, we validate our findings through an extensive set of practical experiments encompassing a wide range of tasks in the fields of computer vision and natural language processing. These experiments serve to demonstrate the capabilities of CO2 in terms of convergence, generalization, and scalability when deployed across configurations comprising up to 128 A100 GPUs. The outcomes emphasize the outstanding capacity of CO2 to hugely improve scalability, no matter on clusters with 800Gbps RDMA or 80Gbps TCP/IP inter-node connections.

arxiv情報

著者 Weigao Sun,Zhen Qin,Weixuan Sun,Shidi Li,Dong Li,Xuyang Shen,Yu Qiao,Yiran Zhong
発行日 2024-01-29 16:12:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.DC パーマリンク