Ultra-Long Sequence Distributed Transformer

要約

長いシーケンスでトレーニングされたトランスフォーマー モデルは、多くの場合、短いシーケンスよりも高い精度を達成します。
残念ながら、従来のトランスフォーマーは、膨大な計算量とメモリ要件により、長いシーケンスのトレーニングに苦労しています。
長いシーケンスのトレーニングのための既存の方法では、高速化とメモリ削減に限界があり、精度が損なわれる可能性があります。
この論文では、長いシーケンスを持つトランスフォーマーをトレーニングするための、新規で効率的な分散トレーニング方法である Long Short-Sequence Transformer (LSS Transformer) を紹介します。
長いシーケンスを GPU 間のセグメントに分散し、各 GPU がそのセグメントの部分的なセルフ アテンションを計算します。
次に、融合通信と新しい二重勾配平均化技術を使用して、部分的なセルフアテンションを集約する必要性を回避し、通信オーバーヘッドを最小限に抑えます。
私たちは、Wikipedia enwik8 データセット上で、LSS Transformer と最先端の Nvidia シーケンス並列処理の間のパフォーマンスを評価しました。
結果は、私たちが提案した方法は、144 個の Nvidia V100 GPU での最先端のシーケンス並列処理と比較して、5.6 倍高速で、10.2 倍のメモリ効率の高い実装につながることを示しています。
さらに、当社のアルゴリズムは、3,456 GPU で 50,112 という極端なシーケンス長まで拡張し、161% の超線形並列効率と 32 ペタフロップスのスループットを達成します。

要約(オリジナル)

Transformer models trained on long sequences often achieve higher accuracy than short sequences. Unfortunately, conventional transformers struggle with long sequence training due to the overwhelming computation and memory requirements. Existing methods for long sequence training offer limited speedup and memory reduction, and may compromise accuracy. This paper presents a novel and efficient distributed training method, the Long Short-Sequence Transformer (LSS Transformer), for training transformer with long sequences. It distributes a long sequence into segments among GPUs, with each GPU computing a partial self-attention for its segment. Then, it uses a fused communication and a novel double gradient averaging technique to avoid the need to aggregate partial self-attention and minimize communication overhead. We evaluated the performance between LSS Transformer and the state-of-the-art Nvidia sequence parallelism on a Wikipedia enwik8 dataset. Results show that our proposed method lead to 5.6x faster and 10.2x more memory-efficient implementation compared to state-of-the-art sequence parallelism on 144 Nvidia V100 GPUs. Moreover, our algorithm scales to an extreme sequence length of 50,112 at 3,456 GPUs, achieving 161% super-linear parallel efficiency and a throughput of 32 petaflops.

arxiv情報

著者 Xiao Wang,Isaac Lyngaas,Aristeidis Tsaris,Peng Chen,Sajal Dash,Mayanka Chandra Shekar,Tao Luo,Hong-Jun Yoon,Mohamed Wahib,John Gouley
発行日 2023-11-08 17:04:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.DC パーマリンク