要約
大規模言語モデル (LLM) は、その優れた機能で AI 業界に革命をもたらしています。
これらのモデルのトレーニングには大規模な GPU クラスターと膨大なコンピューティング時間が必要であり、頻繁な障害につながり、トレーニング コストが大幅に増加します。
その重要性にもかかわらず、この分野には信頼性を評価するための指標がありません。
この研究では、フォールトトレラントな LLM トレーニング システムの信頼性を評価するために、 \emph{トレーニング オーバーヘッド率} (TOR) と呼ばれる新しい信頼性指標を導入します。
TOR は、システムの観察されたトレーニング時間に対する最適なトレーニング時間の比率として定義され、ユーザーが特定のシステム上で LLM のトレーニングに必要な実際の時間を見積もる実用的なツールとして機能します。
さらに、私たちの調査により、信頼性を高めるための重要な要素が特定され、実際に遭遇するさまざまな種類の障害に対する TOR 方程式が示されます。
要約(オリジナル)
Large Language Models (LLMs) are revolutionizing the AI industry with their superior capabilities. Training these models requires large-scale GPU clusters and significant computing time, leading to frequent failures that significantly increase training costs. Despite its significance, this field lacks a metric for evaluating reliability. In this work, we introduce a novel reliability metric called \emph{Training Overhead Ratio} (TOR) to evaluate the reliability of fault-tolerant LLM training systems. TOR is defined as the ratio of optimal training time to the observed training time of a system, serving as a practical tool for users to estimate the actual time required to train an LLM on a given system. Furthermore, our investigation identifies the key factor for enhancing reliability and present TOR equations for various types of failures encountered in practice.
arxiv情報
著者 | Ning Lu,Qian Xie,Hao Zhang,Wenyi Fang,Yang Zheng,Jiantao Ma |
発行日 | 2024-08-14 11:55:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google