Understanding Stragglers in Large Model Training Using What-if Analysis

要約

大規模な言語モデル(LLM)トレーニングは、今日最も要求の厳しい分散計算の1つであり、多くの場合、マシン間で頻繁に同期する数千のGPUが必要です。
このようなワークロードパターンは、ストラグラーの影響を受けやすくなり、トレーニングは少数の遅い労働者によって停止できます。
bytedanceでは、ストラグラーは常にハードウェアの障害によって些細なことではなく、複数の複雑な要因から生じる可能性があります。
この作業の目的は、LLMトレーニングにおけるStragglerの問題に関する包括的な研究を提示することを目的としており、Bytedance LLMトレーニングクラスターから収集された5か月のトレースを使用しています。
コア方法論は、ストラグラーなしでシナリオをシミュレートし、実際のケースと対照的なシナリオをシミュレートするwhat-if分析です。
この方法を使用して、次の質問を研究します。(1)ストラグラーがトレーニングジョブにどのように影響するか、および職務遂行にどのような影響を与えるか。
(2)ストラグラーは時間的または空間的なパターンを示します。
(3)ストラグラーの潜在的な根本原因は何ですか?

要約(オリジナル)

Large language model (LLM) training is one of the most demanding distributed computations today, often requiring thousands of GPUs with frequent synchronization across machines. Such a workload pattern makes it susceptible to stragglers, where the training can be stalled by few slow workers. At ByteDance we find stragglers are not trivially always caused by hardware failures, but can arise from multiple complex factors. This work aims to present a comprehensive study on the straggler issues in LLM training, using a five-month trace collected from our ByteDance LLM training cluster. The core methodology is what-if analysis that simulates the scenario without any stragglers and contrasts with the actual case. We use this method to study the following questions: (1) how often do stragglers affect training jobs, and what effect do they have on job performance; (2) do stragglers exhibit temporal or spatial patterns; and (3) what are the potential root causes for stragglers?

arxiv情報

著者 Jinkun Lin,Ziheng Jiang,Zuquan Song,Sida Zhao,Menghan Yu,Zhanghan Wang,Chenyuan Wang,Zuocheng Shi,Xiang Shi,Wei Jia,Zherui Liu,Shuguang Wang,Haibin Lin,Xin Liu,Aurojit Panda,Jinyang Li
発行日 2025-05-12 17:52:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DC, cs.LG パーマリンク