Light-Weight Fault Tolerant Attention for Large Language Model Training

要約

大規模言語モデル (LLM) は、さまざまな自然言語処理タスクにおいて顕著なパフォーマンスを実証しています。
ただし、これらのモデルのトレーニングは計算量が多く、特にトランスベースの LLM の重要なコンポーネントであるアテンション メカニズムで障害が発生しやすくなります。
この論文では、体系的なフォールト注入実験による計算結果の INF、NaN、および INF に近い値に焦点を当てて、LLM トレーニングに対するフォールトの影響を調査します。
これらのエラーの伝播パターンを観察します。これにより、モデル内でトレーニング不可能な状態が引き起こされ、トレーニングが中断され、プロシージャがチェックポイントからロードされることになります。
これらの障害の影響を軽減するために、LLM のアテンション メカニズムに合わせて調整された初のアルゴリズムベースのフォールト トレランス (ABFT) 技術である ATTNChecker を提案します。
ATTNChecker は、LLM の障害伝播パターンに基づいて設計されており、高速な LLM トレーニングに対する軽量の保護を提供しながら、システムの信頼性とモデルの脆弱性の両方に適応するパフォーマンスの最適化が組み込まれています。
4 つの LLM の評価では、ATTNChecker は、すべての極端なエラーを検出して修正する際に、トレーニング時に平均 7% のオーバーヘッドが発生することが示されています。
最先端のチェックポイント/復元アプローチと比較して、ATTNChecker はリカバリのオーバーヘッドを最大 49 分の 1 に削減します。

要約(オリジナル)

Large Language Models (LLMs) have demonstrated remarkable performance in various natural language processing tasks. However, the training of these models is computationally intensive and susceptible to faults, particularly in the attention mechanism, which is a critical component of transformer-based LLMs. In this paper, we investigate the impact of faults on LLM training, focusing on INF, NaN, and near-INF values in the computation results with systematic fault injection experiments. We observe the propagation patterns of these errors, which can trigger non-trainable states in the model and disrupt training, forcing the procedure to load from checkpoints. To mitigate the impact of these faults, we propose ATTNChecker, the first Algorithm-Based Fault Tolerance (ABFT) technique tailored for the attention mechanism in LLMs. ATTNChecker is designed based on fault propagation patterns of LLM and incorporates performance optimization to adapt to both system reliability and model vulnerability while providing lightweight protection for fast LLM training. Evaluations on four LLMs show that ATTNChecker on average incurs on average 7% overhead on training while detecting and correcting all extreme errors. Compared with the state-of-the-art checkpoint/restore approach, ATTNChecker reduces recovery overhead by up to 49x.

arxiv情報

著者 Yuhang Liang,Xinyi Li,Jie Ren,Ang Li,Bo Fang,Jieyang Chen
発行日 2024-10-16 15:10:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: C.1.4, cs.DC, cs.LG パーマリンク