要約
この論文は、大規模言語モデル (LLM) をトレーニングするための Any-to-Any ネットワークを構築するための確立されたパラダイムに挑戦します。
LLM は、最適に近いトレーニング パフォーマンスを達成するために、少数の GPU グループだけが高帯域幅の通信を必要とするという、独自の通信パターンを示すことを示します。
これらの GPU グループ全体での通信は重要ではなく、均一です。
私たちは、LLM の通信要件に似た新しいネットワーク アーキテクチャを提案します。
私たちのアーキテクチャは、HB ドメインと呼ばれるノンブロッキングの任意対任意の高帯域幅相互接続で相互接続された GPU のセットにクラスターを分割します。
HB ドメイン全体で、ネットワークは通信需要がゼロではない GPU のみを接続します。
私たちの提案を評価するために、トレーニングの反復時間の分析的定式化を開発します。
私たちの定式化では、大規模モデルの以前の研究で確立されたグラウンド トゥルースから 0.15\% 以内のハードウェア浮動小数点使用率を厳密に推定します。
私たちが提案するアーキテクチャは、LLM トレーニングのパフォーマンスを損なうことなく、最先端の Any-to-Any Clos ネットワークと比較してネットワーク コストを 37% ~ 75% 削減することを示します。
要約(オリジナル)
This paper challenges the well-established paradigm for building any-to-any networks for training Large Language Models (LLMs). We show that LLMs exhibit a unique communication pattern where only small groups of GPUs require high-bandwidth communication to achieve near-optimal training performance. Across these groups of GPUs, the communication is insignificant and homogeneous. We propose a new network architecture that resembles the communication requirement of LLMs. Our architecture partitions the cluster into sets of GPUs interconnected with non-blocking any-to-any high-bandwidth interconnects that we call HB domains. Across the HB domains, the network only connects GPUs with non-zero communication demands. We develop an analytical formulation of the training iteration time to evaluate our proposal. Our formulation closely estimates the hardware floating-point utilization within 0.15\% from the ground truth established in prior studies for larger models. We show that our proposed architecture reduces the network cost by 37% to 75% compared to the state-of-the-art any-to-any Clos networks without compromising the performance of LLM training.
arxiv情報
著者 | Weiyang Wang,Manya Ghobadi,Kayvon Shakeri,Ying Zhang,Naader Hasani |
発行日 | 2023-11-01 15:12:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google