TRANSOM: An Efficient Fault-Tolerant System for Training LLMs

要約

chatGPT に代表される大規模言語モデル (LLM) は、さまざまな分野で大きな進歩を遂げており、数千億、さらには数兆のパラメータを持つ LLM が今後も私たちの日常生活に革命をもたらし続けることを示しています。
ただし、このような超大規模モデルのトレーニングには、さらに強力な GPU クラスターと、数か月にわたる長期間のトレーニング期間が必要です。
これらの大規模なクラスターにおけるハードウェアとソフトウェアの障害により、中断のない長時間のトレーニングを維持することが非常に困難になっています。
かなりの量のトレーニング時間が保存とロード、異常検出と再起動のチェックポインティングのタスクに費やされ、全体的なトレーニング効率の顕著な低下につながります。これらの課題に対処するために、TRANSOM という名前の新しいフォールトトレラントな大規模モデル トレーニング システムを導入します。
このシステムは、トレーニング パイプラインの自動フォールト トレランスおよび回復メカニズム (TOL)、トレーニング タスクの多次元メトリック自動異常検出システム (TEE)、およびトレーニング チェックポイントの非同期アクセス自動フォールト トレランスおよび回復テクノロジ (TCE) の 3 つの統合コンポーネントで構成されています。

ここで、TOL はトレーニング タスクのオペレーティング システムとして機能し、TEE はタスクの監視とエラー処理を担当し、異常を迅速に検出して TOL に中継します。
その後、TOL はトレーニング タスクのフォールト トレランス戦略を自律的に決定して実装し、TCE はフォールト トレランス プロセス中の非同期チェックポイントの保存とロードを容易にします。
実験結果は、TRANSOM がクラスター上での大規模な LLM トレーニングの効率を大幅に向上させることを示しています。
具体的には、GPT3-175B の事前トレーニング時間が 28% 短縮され、チェックポイントの保存とロードのパフォーマンスが 20 倍向上しました。

要約(オリジナル)

Large language models (LLMs), exemplified by chatGPT, have made significant strides in various domains, indicating that LLMs with hundreds of billions or even trillions of parameters will continue to revolutionize our daily lives. However, training such super-large-scale models demands even more powerful GPU clusters and extended training periods spanning months. Maintaining uninterrupted and long-duration training has become exceptionally challenging due to hardware and software failures in these extensive clusters. A substantial amount of training time is devoted to tasks checkpointing saving and loading, ananomaly detection and restarts, leading to a notable reduction in overall training efficiency.To address these challenges, we introduce novel fault-tolerant large-scale model training system named TRANSOM. This system comprises three integral components: the training pipeline automatic fault tolerance and recovery mechanism (TOL), the training task multi-dimensional metric automatic anomaly detection system (TEE), and the training checkpoint asynchronous access automatic fault tolerance and recovery technology (TCE). Here, TOL serves as the operating system for the training task, while TEE is responsible for task monitoring and error handling, promptly detecting anomalies and relaying them to TOL. Subsequently, TOL autonomously determines and implements fault tolerance strategies for the training task, with the TCE facilitating asynchronous checkpoint saving and loading during the fault tolerance process. The experimental results indicate that TRANSOM significantly enhances the efficiency of large-scale LLM training on clusters. Specifically, the pre-training time for GPT3-175B has been reduced by 28%, while checkpoint saving and loading performance have improved by a factor of 20.

arxiv情報

著者 Baodong Wu,Lei Xia,Qingping Li,Kangyu Li,Xu Chen,Yongqiang Guo,Tieyao Xiang,Yuheng Chen,Shigang Li
発行日 2023-10-17 17:03:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.DC パーマリンク