Error Feedback Reloaded: From Quadratic to Arithmetic Mean of Smoothness Constants

要約

エラー フィードバック (EF) は、分散トレーニング方法 (分散 GD や SGD など) が TopK などの貪欲な通信圧縮技術で強化された場合に発生する収束の問題を修正するための非常に人気があり、非常に効果的なメカニズムです。
EF はほぼ 10 年前に提案され (Seide et al., 2014)、このメカニズムの理論的理解を進めるためにコミュニティによる集中的な努力にもかかわらず、まだ探求すべきことがたくさんあります。
この研究では、EF21 (Richtarik et al., 2021) と呼ばれる最新形式のエラー フィードバックを研究します。これは、最も弱い仮定の下で現在最もよく知られている理論的保証を提供し、実際にもうまく機能します。
特に、EF21 の理論的な通信の複雑さは特定の平滑度パラメーターの二次平均に依存しますが、この依存性を算術平均に改善します。算術平均は常に小さく、特に異種データ領域では大幅に小さくなる可能性があります。
読者を私たちの発見プロセスの旅に連れて行きます。
(残念なことに) (多くの場合非現実的な) マシンのクローン作成を必要とする根本的な問題の等価な再定式化に EF21 を適用するというアイデアから始まり、(幸いなことに) クローン作成なしで実行できる EF21 の新しい加重バージョンの発見に進みます。
そして最後に、元の EF21 メソッドの改良された分析に戻ります。
この開発は EF21 の最も単純な形式に適用されますが、私たちのアプローチは当然、確率的勾配と部分的関与を含むより複雑なバリアントにも拡張されます。
さらに、私たちの技術は、希少な特徴領域における EF21 の最もよく知られた理論を改善します (Richtarik et al., 2023)。
最後に、理論的な発見を適切な実験で検証します。

要約(オリジナル)

Error Feedback (EF) is a highly popular and immensely effective mechanism for fixing convergence issues which arise in distributed training methods (such as distributed GD or SGD) when these are enhanced with greedy communication compression techniques such as TopK. While EF was proposed almost a decade ago (Seide et al., 2014), and despite concentrated effort by the community to advance the theoretical understanding of this mechanism, there is still a lot to explore. In this work we study a modern form of error feedback called EF21 (Richtarik et al., 2021) which offers the currently best-known theoretical guarantees, under the weakest assumptions, and also works well in practice. In particular, while the theoretical communication complexity of EF21 depends on the quadratic mean of certain smoothness parameters, we improve this dependence to their arithmetic mean, which is always smaller, and can be substantially smaller, especially in heterogeneous data regimes. We take the reader on a journey of our discovery process. Starting with the idea of applying EF21 to an equivalent reformulation of the underlying problem which (unfortunately) requires (often impractical) machine cloning, we continue to the discovery of a new weighted version of EF21 which can (fortunately) be executed without any cloning, and finally circle back to an improved analysis of the original EF21 method. While this development applies to the simplest form of EF21, our approach naturally extends to more elaborate variants involving stochastic gradients and partial participation. Further, our technique improves the best-known theory of EF21 in the rare features regime (Richtarik et al., 2023). Finally, we validate our theoretical findings with suitable experiments.

arxiv情報

著者 Peter Richtárik,Elnur Gasanov,Konstantin Burlachenko
発行日 2024-02-16 15:55:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 74Pxx, 90C26, cs.AI, cs.LG, G.1.6, math.OC, stat.ML パーマリンク