Asynchronous Local-SGD Training for Language Modeling

要約

ローカル確率的勾配降下法 (Local-SGD) は、統合平均とも呼ばれ、各デバイスが通信ごとに複数の SGD 更新を実行する分散最適化へのアプローチです。
この研究では、言語モデルをトレーニングするための {\it 非同期} Local-SGD の実証的研究を紹介します。
つまり、各ワーカーは SGD ステップを完了するとすぐにグローバルパラメータを更新します。
ワーカーのハードウェアの異種性、モデルのサイズ、ワーカーの数、オプティマイザーが学習パフォーマンスにどのような影響を与えるかを調査することで、包括的な調査を実施します。
単純な実装では、(グローバル) モデルパラメーターをより頻繁に更新するにもかかわらず、非同期 Local-SGD は同期のものよりも収束するまでに多くの反復が必要であることがわかりました。
ワーカーの勾配が古い場合のグローバル パラメーターの運動量の加速が重要な課題であると特定します。
私たちは、ネステロフ運動量の遅延更新を利用し、ワーカーのローカル トレーニング ステップを計算速度に基づいて調整する新しい方法を提案します。
このアプローチは、C4 データセット上の最大 150M パラメーターのモデルで評価され、更新ステップごとの複雑さの点で同期 Local-SGD のパフォーマンスに匹敵し、実時間の点ではそれを大幅に上回っています。

要約(オリジナル)

Local stochastic gradient descent (Local-SGD), also referred to as federated averaging, is an approach to distributed optimization where each device performs more than one SGD update per communication. This work presents an empirical study of {\it asynchronous} Local-SGD for training language models; that is, each worker updates the global parameters as soon as it has finished its SGD steps. We conduct a comprehensive investigation by examining how worker hardware heterogeneity, model size, number of workers, and optimizer could impact the learning performance. We find that with naive implementations, asynchronous Local-SGD takes more iterations to converge than its synchronous counterpart despite updating the (global) model parameters more frequently. We identify momentum acceleration on the global parameters when worker gradients are stale as a key challenge. We propose a novel method that utilizes a delayed Nesterov momentum update and adjusts the workers’ local training steps based on their computation speed. This approach, evaluated with models up to 150M parameters on the C4 dataset, matches the performance of synchronous Local-SGD in terms of perplexity per update step, and significantly surpasses it in terms of wall clock time.

arxiv情報

著者 Bo Liu,Rachita Chhaparia,Arthur Douillard,Satyen Kale,Andrei A. Rusu,Jiajun Shen,Arthur Szlam,Marc’Aurelio Ranzato
発行日 2024-01-17 11:17:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク