Training Overhead Ratio: A Practical Reliability Metric for Large Language Model Training Systems

要約

大規模言語モデル (LLM) は、その優れた機能で AI 業界に革命をもたらしています。
これらのモデルのトレーニングには大規模な GPU クラスターと膨大なコンピューティング時間が必要であり、頻繁な障害につながり、トレーニング コストが大幅に増加します。
その重要性にもかかわらず、この分野には信頼性を評価するための指標がありません。
この研究では、フォールトトレラントな LLM トレーニング システムの信頼性を評価するために、 \emph{トレーニング オーバーヘッド率} (TOR) と呼ばれる新しい信頼性指標を導入します。
TOR は、システムの観察されたトレーニング時間に対する最適なトレーニング時間の比率として定義され、ユーザーが特定のシステム上で LLM のトレーニングに必要な実際の時間を見積もる実用的なツールとして機能します。
さらに、私たちの調査により、信頼性を高めるための重要な要素が特定され、実際に遭遇するさまざまな種類の障害に対する TOR 方程式が示されます。

要約(オリジナル)

Large Language Models (LLMs) are revolutionizing the AI industry with their superior capabilities. Training these models requires large-scale GPU clusters and significant computing time, leading to frequent failures that significantly increase training costs. Despite its significance, this field lacks a metric for evaluating reliability. In this work, we introduce a novel reliability metric called \emph{Training Overhead Ratio} (TOR) to evaluate the reliability of fault-tolerant LLM training systems. TOR is defined as the ratio of optimal training time to the observed training time of a system, serving as a practical tool for users to estimate the actual time required to train an LLM on a given system. Furthermore, our investigation identifies the key factor for enhancing reliability and present TOR equations for various types of failures encountered in practice.

arxiv情報

著者 Ning Lu,Qian Xie,Hao Zhang,Wenyi Fang,Yang Zheng,Jiantao Ma
発行日 2024-08-14 11:55:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.DC パーマリンク