EPISODE: Episodic Gradient Clipping with Periodic Resampled Corrections for Federated Learning with Heterogeneous Data

要約

勾配クリッピングは、再帰型ニューラル ネットワークなどの爆発的勾配を持つディープ ニューラル ネットワークにとって重要な手法です。
最近の研究では、これらのネットワークの損失関数は従来の平滑条件を満たさず、代わりに緩和された平滑条件、つまり勾配のリプシッツ定数が勾配ノルムに関して線形にスケーリングすることが示されています。
この観察により、いくつかの勾配クリッピング アルゴリズムが、非凸関数および緩和平滑関数用に開発されました。
ただし、既存のアルゴリズムは、マシン間で同種のデータを使用する単一マシンまたは複数マシンの設定にのみ適用されます。
異種データと限られた通信ラウンドを使用する一般的な Federated Learning (FL) 設定で、証明可能な効率の勾配クリッピング アルゴリズムを設計する方法は不明のままです。
この論文では、EPISODE を設計します。これは、非凸で緩和された滑らかさの設定で異種データを使用して FL 問題を解決する最初のアルゴリズムです。
アルゴリズムの重要な構成要素は、\textit{episodic gradient clipping} と \textit{定期的なリサンプリングされた修正} と呼ばれる 2 つの新しい技術です。
各ラウンドの開始時に、EPISODE は各クライアントから確率的勾配をリサンプリングし、グローバル平均勾配を取得します。これは、(1) ラウンド全体に勾配クリッピングを適用するかどうかを決定し、(2) 各クライアントのローカル勾配補正を構築するために使用されます。
特に、私たちのアルゴリズムと分析は、確率的勾配のノイズレベルの下で同種および異種のデータの両方に統一されたフレームワークを提供し、最先端の複雑さの結果を達成します。
特に、EPISODE はマシン数で線形の高速化を達成でき、必要な通信ラウンドが大幅に少なくなることを証明しています。
いくつかの異種データセットでの実験は、FL のいくつかの強力なベースラインよりも EPISODE の優れたパフォーマンスを示しています。

要約(オリジナル)

Gradient clipping is an important technique for deep neural networks with exploding gradients, such as recurrent neural networks. Recent studies have shown that the loss functions of these networks do not satisfy the conventional smoothness condition, but instead satisfy a relaxed smoothness condition, i.e., the Lipschitz constant of the gradient scales linearly in terms of the gradient norm. Due to this observation, several gradient clipping algorithms have been developed for nonconvex and relaxed-smooth functions. However, the existing algorithms only apply to the single-machine or multiple-machine setting with homogeneous data across machines. It remains unclear how to design provably efficient gradient clipping algorithms in the general Federated Learning (FL) setting with heterogeneous data and limited communication rounds. In this paper, we design EPISODE, the very first algorithm to solve FL problems with heterogeneous data in the nonconvex and relaxed smoothness setting. The key ingredients of the algorithm are two new techniques called \textit{episodic gradient clipping} and \textit{periodic resampled corrections}. At the beginning of each round, EPISODE resamples stochastic gradients from each client and obtains the global averaged gradient, which is used to (1) determine whether to apply gradient clipping for the entire round and (2) construct local gradient corrections for each client. Notably, our algorithm and analysis provide a unified framework for both homogeneous and heterogeneous data under any noise level of the stochastic gradient, and it achieves state-of-the-art complexity results. In particular, we prove that EPISODE can achieve linear speedup in the number of machines, and it requires significantly fewer communication rounds. Experiments on several heterogeneous datasets show the superior performance of EPISODE over several strong baselines in FL.

arxiv情報

著者 Michael Crawshaw,Yajie Bao,Mingrui Liu
発行日 2023-02-14 16:05:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC パーマリンク