Why Batch Normalization Damage Federated Learning on Non-IID Data?

要約

有望な分散学習パラダイムとして、フェデレーテッド ラーニング (FL) には、エッジ クライアントのプライバシーを保護しながら、ネットワーク エッジでディープ ニューラル ネットワーク (DNN) モデルをトレーニングすることが含まれます。
大規模な DNN モデルをトレーニングする場合、バッチ正規化 (BN) はトレーニングを加速し、一般化能力を向上させるシンプルで効果的な手段とみなされてきました。
しかし、最近の発見は、BN が非 i.i.d. 物質の存在下で FL のパフォーマンスを著しく損なう可能性があることを示しています。
データ。
この問題に対処するためにいくつかの FL アルゴリズムが提案されていますが、集中型スキームと比較するとパフォーマンスは依然として大幅に低下します。
さらに、BN が FL の収束にどのようなダメージを与えるかについて理論的な説明を提供しているものはありません。
この論文では、非 i.i.d 環境下でのことを示す最初の収束分析を紹介します。
データの場合、BN のローカル統計パラメーターとグローバル統計パラメーターの間の不一致により、ローカル モデルとグローバル モデルの間の勾配偏差が生じ、その結果、FL の収束が遅くなり、偏りが生じます。
これを考慮して、BN に合わせた新しい FL アルゴリズム (FedTAN と呼ばれます) を開発します。このアルゴリズムは、反復的なレイヤーごとのパラメーター集約により、さまざまなデータ分布の下で堅牢な FL パフォーマンスを実現できます。
包括的な実験結果は、提案された FedTAN が BN ベースの DNN モデルをトレーニングするための既存のベースラインよりも優れていることを示しています。

要約(オリジナル)

As a promising distributed learning paradigm, federated learning (FL) involves training deep neural network (DNN) models at the network edge while protecting the privacy of the edge clients. To train a large-scale DNN model, batch normalization (BN) has been regarded as a simple and effective means to accelerate the training and improve the generalization capability. However, recent findings indicate that BN can significantly impair the performance of FL in the presence of non-i.i.d. data. While several FL algorithms have been proposed to address this issue, their performance still falls significantly when compared to the centralized scheme. Furthermore, none of them have provided a theoretical explanation of how the BN damages the FL convergence. In this paper, we present the first convergence analysis to show that under the non-i.i.d. data, the mismatch between the local and global statistical parameters in BN causes the gradient deviation between the local and global models, which, as a result, slows down and biases the FL convergence. In view of this, we develop a new FL algorithm that is tailored to BN, called FedTAN, which is capable of achieving robust FL performance under a variety of data distributions via iterative layer-wise parameter aggregation. Comprehensive experimental results demonstrate the superiority of the proposed FedTAN over existing baselines for training BN-based DNN models.

arxiv情報

著者 Yanmeng Wang,Qingjiang Shi,Tsung-Hui Chang
発行日 2023-08-15 15:52:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DC, cs.LG パーマリンク