Local Methods with Adaptivity via Scaling

要約

機械学習と深層学習の急速な発展により、対処する必要があるますます複雑な最適化の課題が生じています。
実際、分散環境で複数のコンピューティング ノードを活用しない限り、最新の高度なモデルをトレーニングすることは困難になってきています。
分散最適化は、フェデレーション ラーニングなどの新興分野の基礎でもあります。
具体的には、コミュニケーションによる時間のロスを最小限に抑えるためにトレーニング プロセスを組織する必要があります。
通信のボトルネックを軽減するために広く使用され、広範囲に研究されている手法には、通信の前にローカル トレーニングを実行することが含まれます。
このアプローチが私たちの論文の焦点です。
同時に、特にアダムが主導する、スケーリングを組み込んだ適応手法が近年大幅に普及しています。
したがって、この論文は、効率的な分散学習方法を開発するために、ローカル トレーニング手法と適応アプローチを融合することを目的としています。
私たちは古典的なローカル SGD メソッドを検討し、スケーリング機能でそれを強化します。
重要な点は、スケーリングが一般的に記述されており、Adam、RMSProp、OASIS などのさまざまなアプローチを統一的な方法で分析できることです。
理論的な分析に加えて、ニューラル ネットワークをトレーニングすることで、実際の方法のパフォーマンスを検証します。

要約(オリジナル)

The rapid development of machine learning and deep learning has introduced increasingly complex optimization challenges that must be addressed. Indeed, training modern, advanced models has become difficult to implement without leveraging multiple computing nodes in a distributed environment. Distributed optimization is also fundamental to emerging fields such as federated learning. Specifically, there is a need to organize the training process to minimize the time lost due to communication. A widely used and extensively researched technique to mitigate the communication bottleneck involves performing local training before communication. This approach is the focus of our paper. Concurrently, adaptive methods that incorporate scaling, notably led by Adam, have gained significant popularity in recent years. Therefore, this paper aims to merge the local training technique with the adaptive approach to develop efficient distributed learning methods. We consider the classical Local SGD method and enhance it with a scaling feature. A crucial aspect is that the scaling is described generically, allowing us to analyze various approaches, including Adam, RMSProp, and OASIS, in a unified manner. In addition to theoretical analysis, we validate the performance of our methods in practice by training a neural network.

arxiv情報

著者 Savelii Chezhegov,Sergey Skorik,Nikolas Khachaturov,Danil Shalagin,Aram Avetisyan,Martin Takáč,Yaroslav Kholodov,Aleksandr Beznosikov
発行日 2024-09-16 16:30:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DC, cs.LG, math.OC パーマリンク