SparsyFed: Sparse Adaptive Federated Training

要約

クロスデバイスフェデレートラーニング(FL)環境では、疎なトレーニングが採用されることがよくあります。この環境では、制約されたデバイスが、異種ネットワーク全体で擬似勾配を交換することにより、プライベートデータの機械学習モデルを協力してトレーニングします。
まばらなトレーニング方法は、フロリダ州の通信と計算の負担を軽減することができますが、以下の主な理由で実際には使用されないことがよくあります。(1)データの不均一性により、クライアントが密集したモデルと比較してスパースモデルのコンセンサスに達することが難しくなり、より長いトレーニングが必要です。
(2)スパースマスクを取得する方法は、非常に不均一なデータ分布に対応するための適応性を欠いており、クロスデバイスFLで重要です。
(3)追加のハイパーパラメーターが必要です。これは、FLで調整するのが特に困難です。
このペーパーでは、上記の問題に批判的に対処する実用的なフェデレーションスパーストレーニング方法であるSparsyfedを紹介します。
以前の作品は、マスクとスパースパターンの適応性に関するクライアントのコンセンサスなど、新しいトレードオフを導入することを犠牲にして、これらの課題の1つまたは2つのみを解決してきました。
Sparsyfedは同時に(1)95%のスパースモデルを生成し、精度は無視できる分解で、単一のハイパーパラメーターのみが必要であることを示しています。

要約(オリジナル)

Sparse training is often adopted in cross-device federated learning (FL) environments where constrained devices collaboratively train a machine learning model on private data by exchanging pseudo-gradients across heterogeneous networks. Although sparse training methods can reduce communication overhead and computational burden in FL, they are often not used in practice for the following key reasons: (1) data heterogeneity makes it harder for clients to reach consensus on sparse models compared to dense ones, requiring longer training; (2) methods for obtaining sparse masks lack adaptivity to accommodate very heterogeneous data distributions, crucial in cross-device FL; and (3) additional hyperparameters are required, which are notably challenging to tune in FL. This paper presents SparsyFed, a practical federated sparse training method that critically addresses the problems above. Previous works have only solved one or two of these challenges at the expense of introducing new trade-offs, such as clients’ consensus on masks versus sparsity pattern adaptivity. We show that SparsyFed simultaneously (1) can produce 95% sparse models, with negligible degradation in accuracy, while only needing a single hyperparameter, (2) achieves a per-round weight regrowth 200 times smaller than previous methods, and (3) allows the sparse masks to adapt to highly heterogeneous data distributions and outperform all baselines under such conditions.

arxiv情報

著者 Adriano Guastella,Lorenzo Sani,Alex Iacob,Alessio Mora,Paolo Bellavista,Nicholas D. Lane
発行日 2025-04-07 14:57:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク