SWARM Parallelism: Training Large Models Can Be Surprisingly Communication-Efficient

要約

多くの深層学習アプリケーションは、数十億のパラメーターを持つ大規模なモデルを使用することで恩恵を受けます。
これらのモデルのトレーニングは、特殊な HPC クラスターが必要なため、費用がかかることで有名です。
この作業では、大規模モデルをトレーニングするための代替セットアップ、つまり、安価な「プリエンプティブル」インスタンスを使用するか、複数のリージョンから既存のリソースをプールするかを検討します。
これらの条件下で既存のモデル並列アルゴリズムのパフォーマンスを分析し、大規模なモデルのトレーニングで通信量が少なくなる構成を見つけます。
これらの発見に基づいて、接続が不十分で異種の、信頼性の低いデバイス向けに設計されたモデル並列トレーニング アルゴリズムである SWARM 並列処理を提案します。
SWARM は、ノード間に一時的なランダム化されたパイプラインを作成し、障害が発生した場合に再バランスされます。
私たちは調査結果を経験的に検証し、SWARM の並列処理を既存の大規模トレーニング アプローチと比較します。
最後に、洞察と圧縮戦略を組み合わせて、200Mb/s 未満のネットワークを備えたプリエンプティブル T4 GPU 上で 1B の共有パラメーター (共有前は約 13B) を使用して大規模な Transformer 言語モデルをトレーニングします。

要約(オリジナル)

Many deep learning applications benefit from using large models with billions of parameters. Training these models is notoriously expensive due to the need for specialized HPC clusters. In this work, we consider alternative setups for training large models: using cheap ‘preemptible’ instances or pooling existing resources from multiple regions. We analyze the performance of existing model-parallel algorithms in these conditions and find configurations where training larger models becomes less communication-intensive. Based on these findings, we propose SWARM parallelism, a model-parallel training algorithm designed for poorly connected, heterogeneous and unreliable devices. SWARM creates temporary randomized pipelines between nodes that are rebalanced in case of failure. We empirically validate our findings and compare SWARM parallelism with existing large-scale training approaches. Finally, we combine our insights with compression strategies to train a large Transformer language model with 1B shared parameters (approximately 13B before sharing) on preemptible T4 GPUs with less than 200Mb/s network.

arxiv情報

著者 Max Ryabinin,Tim Dettmers,Michael Diskin,Alexander Borzunov
発行日 2023-06-29 17:11:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DC, cs.LG パーマリンク