要約
スケーリングロングコンテキスト機能は、大規模な言語モデル(LLMS)に不可欠です。
長いコンテキストトレーニングで複数のデバイスにわたってメモリ消費を償却するために、DATA間分割(別名データ並列性)およびDATA内パーティション(別名コンテキスト並列性)が一般的に使用されます。
現在のトレーニングフレームワークは、主に2つの手法を直交として扱い、静的通信グループを確立して、デバイスを静的メッシュ(2Dメッシュなど)として整理します。
ただし、LLMトレーニングのシーケンスは、通常、テキスト、マルチモダリティ、または強化学習に関係なく、長さが異なります。
データの不均一性と静的メッシュの間の不一致は、冗長な通信と不均衡な計算を引き起こし、トレーニング効率を低下させます。
この作業では、長いシーケンスと短いシーケンスの大規模な混合トレーニングのための効率的で柔軟でスケーラブルなLLMトレーニングフレームワークであるBytescaleを紹介します。
Bytescaleのコアは、新しい並列性戦略、すなわちハイブリッドデータ並列処理(HDP)であり、ダイナミックメッシュデザインでDATA間分割とDATA間分割を統合します。
特に、データ認識シャードと動的通信により短いシーケンスの冗長通信を排除する通信オプティマイザーを構築し、選択的オフロードによって長いシーケンスの通信コストをさらに圧縮します。
また、並列処理データの割り当てによる不均衡な計算を緩和するためのバランススケジューラも開発します。
12,000 GPUを超える生産クラスターで、7Bから141B、コンテキストの長さ、256Kから2048Kの範囲のモデルサイズでバイトスケールを評価します。
実験結果は、バイトスケールが最大のトレーニングシステムを最大7.89倍上回ることを示しています。
要約(オリジナル)
Scaling long-context ability is essential for Large Language Models (LLMs). To amortize the memory consumption across multiple devices in long-context training, inter-data partitioning (a.k.a. Data Parallelism) and intra-data partitioning (a.k.a. Context Parallelism) are commonly used. Current training frameworks predominantly treat the two techniques as orthogonal, and establish static communication groups to organize the devices as a static mesh (e.g., a 2D mesh). However, the sequences for LLM training typically vary in lengths, no matter for texts, multi-modalities or reinforcement learning. The mismatch between data heterogeneity and static mesh causes redundant communication and imbalanced computation, degrading the training efficiency. In this work, we introduce ByteScale, an efficient, flexible, and scalable LLM training framework for large-scale mixed training of long and short sequences. The core of ByteScale is a novel parallelism strategy, namely Hybrid Data Parallelism (HDP), which unifies the inter- and intra-data partitioning with a dynamic mesh design. In particular, we build a communication optimizer, which eliminates the redundant communication for short sequences by data-aware sharding and dynamic communication, and further compresses the communication cost for long sequences by selective offloading. Besides, we also develop a balance scheduler to mitigate the imbalanced computation by parallelism-aware data assignment. We evaluate ByteScale with the model sizes ranging from 7B to 141B, context lengths from 256K to 2048K, on a production cluster with more than 12,000 GPUs. Experiment results show that ByteScale outperforms the state-of-the-art training system by up to 7.89x.
arxiv情報
| 著者 | Hao Ge,Junda Feng,Qi Huang,Fangcheng Fu,Xiaonan Nie,Lei Zuo,Haibin Lin,Bin Cui,Xin Liu |
| 発行日 | 2025-02-28 17:01:03+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google