TRANSOM: An Efficient Fault-Tolerant System for Training LLMs

要約

chatGPT に代表される、数千億または数兆のパラメータを持つ大規模言語モデル (LLM) は、さまざまな分野に大きな影響を与えています。
ただし、超大規模パラメータを使用して LLM をトレーニングするには、大規模な高性能 GPU クラスターと数か月にわたる長いトレーニング期間が必要です。
大規模クラスターではハードウェアとソフトウェアの障害が避けられないため、中断せずに長時間のトレーニングを維持することは非常に困難です。
その結果、かなりの量のトレーニング時間がタスク チェックポイントの保存とロード、タスクの再スケジュールと再開、およびタスクの手動異常チェックに費やされ、全体的なトレーニング効率が大幅に低下します。
これらの問題に対処するために、私たちは新しいフォールトトレラント LLM トレーニング システムである TRANSOM を提案します。
この作業では、3 つの主要なサブシステムを設計します。Transom Operator and Launcher (TOL) という名前のトレーニング パイプラインの自動フォールト トレランスおよび回復メカニズム、Transom Eagle Eye (TEE) という名前のトレーニング タスクの多次元メトリック自動異常検出システム、およびトレーニング
Transom Checkpoint Engine (TCE) と呼ばれるチェックポイント非同期アクセス自動フォールト トレランスおよび回復テクノロジ。
ここで、TOL はトレーニング タスクのライフサイクルを管理し、TEE はタスクの監視と異常報告を担当します。
TEE はトレーニングの異常を検出し、TOL に報告します。TOL は自動的にフォールト トレランス戦略を開始して、異常なノードを排除し、トレーニング タスクを再開します。
また、TCE が提供する非同期チェックポイントの保存およびロード機能により、フォールト トレランスのオーバーヘッドが大幅に短縮されます。
実験結果は、TRANSOM がクラスター上での大規模な LLM トレーニングの効率を大幅に向上させることを示しています。
具体的には、GPT3-175B の事前トレーニング時間が 28% 短縮され、チェックポイントの保存とロードのパフォーマンスが 20 倍向上しました。

要約(オリジナル)

Large language models (LLMs) with hundreds of billions or trillions of parameters, represented by chatGPT, have achieved profound impact on various fields. However, training LLMs with super-large-scale parameters requires large high-performance GPU clusters and long training periods lasting for months. Due to the inevitable hardware and software failures in large-scale clusters, maintaining uninterrupted and long-duration training is extremely challenging. As a result, A substantial amount of training time is devoted to task checkpoint saving and loading, task rescheduling and restart, and task manual anomaly checks, which greatly harms the overall training efficiency. To address these issues, we propose TRANSOM, a novel fault-tolerant LLM training system. In this work, we design three key subsystems: the training pipeline automatic fault tolerance and recovery mechanism named Transom Operator and Launcher (TOL), the training task multi-dimensional metric automatic anomaly detection system named Transom Eagle Eye (TEE), and the training checkpoint asynchronous access automatic fault tolerance and recovery technology named Transom Checkpoint Engine (TCE). Here, TOL manages the lifecycle of training tasks, while TEE is responsible for task monitoring and anomaly reporting. TEE detects training anomalies and reports them to TOL, who automatically enters the fault tolerance strategy to eliminate abnormal nodes and restart the training task. And the asynchronous checkpoint saving and loading functionality provided by TCE greatly shorten the fault tolerance overhead. The experimental results indicate that TRANSOM significantly enhances the efficiency of large-scale LLM training on clusters. Specifically, the pre-training time for GPT3-175B has been reduced by 28%, while checkpoint saving and loading performance have improved by a factor of 20.

arxiv情報

著者 Baodong Wu,Lei Xia,Qingping Li,Kangyu Li,Xu Chen,Yongqiang Guo,Tieyao Xiang,Yuheng Chen,Shigang Li
発行日 2023-10-18 15:42:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.DC パーマリンク