要約
人工知能、特に大規模な言語モデルの急増により、大規模な機械学習トレーニング クラスターの開発が急速に進みました。
これらのクラスター内の集団通信は帯域幅に大きく制限される傾向があるため、利用可能なネットワーク帯域幅を最適に利用するための技術が必要になります。
これにより、集合体のルーティング アルゴリズムがパフォーマンスを決定する最前線に置かれます。
残念ながら、今日の分散機械学習で使用される通信ライブラリは、ルーティング アルゴリズムの固定セットによって制限されています。
これにより、複雑で異種の非対称の大規模トポロジを採用する次世代トレーニング クラスターのドメイン内での集合的なパフォーマンスが制限されます。
さらに、デバイスの故障などの実行時現象に起因すると考えられる不規則なトポロジの出現により、課題はさらに複雑になります。
この目的を達成するために、このホワイト ペーパーでは、任意の入力ネットワーク トポロジにわたる共通の分散機械学習集合体向けにトポロジーを認識した集合アルゴリズムを生成する自動シンセサイザーである TACOS を紹介します。
TACOS は、異種混合 512-NPU システム用の All-Reduce アルゴリズムをわずか 6.09 分で合成することができ、従来の最先端の作業と比較して最大 4.27 倍のパフォーマンス向上を達成しました。
TACOS は高いスケーラビリティを示し、合成時間は NPU の数に応じて二次的に増加します。
以前の作品の NP ハード アプローチとは対照的に、40K NPU を備えた TACOS は 2.52 時間で完了します。
要約(オリジナル)
The surge of artificial intelligence, specifically large language models, has led to a rapid advent towards the development of large-scale machine learning training clusters. Collective communications within these clusters tend to be heavily bandwidth-bound, necessitating techniques to optimally utilize the available network bandwidth. This puts the routing algorithm for the collective at the forefront of determining the performance. Unfortunately, communication libraries used in distributed machine learning today are limited by a fixed set of routing algorithms. This constraints collective performance within the domain of next-generation training clusters that employ intricate, heterogeneous, and asymmetric, large-scale topologies. Further, the emergence of irregular topologies attributed to runtime phenomena such as device failures serves to compound the complexity of the challenge. To this end, this paper introduces TACOS, an automated synthesizer that generates topology-aware collective algorithms for common distributed machine learning collectives across arbitrary input network topologies. TACOS was able to synthesize All-Reduce algorithm for a heterogeneous 512-NPU system in just 6.09 minutes while achieving performance improvement up to 4.27x over state-of-the-art prior work. TACOS exhibits high scalability, with synthesis time scaling quadratically with the number of NPUs. In contrast to prior works’ NP-hard approaches, TACOS with 40K NPUs completes in 2.52 hours.
arxiv情報
著者 | William Won,Midhilesh Elavazhagan,Sudarshan Srinivasan,Ajaya Durg,Samvit Kaul,Swati Gupta,Tushar Krishna |
発行日 | 2024-03-29 17:34:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google