Cyclical Weight Consolidation: Towards Solving Catastrophic Forgetting in Serial Federated Learning

要約

Federated Learning (FL) は、データ不足とプライバシーの問題に対処することで注目を集めています。
FedAvg のような並列 FL アルゴリズムは顕著なパフォーマンスを示しますが、ネットワーク速度が多様で、特に医療分野のような複数の機関が連携する場合には、集中管理に関する懸念があるシナリオでは課題に直面しています。
シリアル FL は、モデルの更新をデバイス間で周期的にシリアルに転送することで、これらの課題を回避する代替ソリューションを提供します。
それにもかかわらず、(1) パフォーマンスが望ましくない変動を示し、(2) 特に非 IID データを処理する場合、より低いプラトーに収束するという点で、並列 FL より劣ると考えられます。
観察された現象は、以前のサイトからの知識の損失による壊滅的な忘却に起因すると考えられます。
この論文では、反復学習と忘却のプロセスにおける変動と低効率を克服するために、シリアル FL に特化して調整された直接的かつ強力なアプローチである循環重み統合 (CWC) を紹介します。
CWC は、統合マトリックスを使用して局所的な最適化を調整します。
このマトリックスは、トレーニング軌跡全体を通じてフェデレーション全体における各パラメーターの重要性を追跡し、重要な重みの突然の変更を防ぎます。
再訪中に、適応性を維持するために、古い記憶が減衰して新しい情報が取り込まれます。
当社の包括的な評価では、さまざまな非 IID 設定において、CWC が元のシリアル FL アプローチの変動動作を軽減し、コンバージド パフォーマンスを一貫して大幅に向上させることが実証されています。
改善されたパフォーマンスは、パラレル バニラと同等かそれ以上です。

要約(オリジナル)

Federated Learning (FL) has gained attention for addressing data scarcity and privacy concerns. While parallel FL algorithms like FedAvg exhibit remarkable performance, they face challenges in scenarios with diverse network speeds and concerns about centralized control, especially in multi-institutional collaborations like the medical domain. Serial FL presents an alternative solution, circumventing these challenges by transferring model updates serially between devices in a cyclical manner. Nevertheless, it is deemed inferior to parallel FL in that (1) its performance shows undesirable fluctuations, and (2) it converges to a lower plateau, particularly when dealing with non-IID data. The observed phenomenon is attributed to catastrophic forgetting due to knowledge loss from previous sites. In this paper, to overcome fluctuation and low efficiency in the iterative learning and forgetting process, we introduce cyclical weight consolidation (CWC), a straightforward yet potent approach specifically tailored for serial FL. CWC employs a consolidation matrix to regulate local optimization. This matrix tracks the significance of each parameter on the overall federation throughout the entire training trajectory, preventing abrupt changes in significant weights. During revisitation, to maintain adaptability, old memory undergoes decay to incorporate new information. Our comprehensive evaluations demonstrate that in various non-IID settings, CWC mitigates the fluctuation behavior of the original serial FL approach and enhances the converged performance consistently and significantly. The improved performance is either comparable to or better than the parallel vanilla.

arxiv情報

著者 Haoyue Song,Jiacheng Wang,Liansheng Wang
発行日 2024-05-17 09:20:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク