Differentially Private Clustered Federated Learning

要約

分散化された機械学習(ML)アプローチであるFederated Learning(FL)は、多くの場合、差別的なプライバシー(DP)を組み込んで、厳格なデータプライバシー保証を提供します。
以前の作品は、クラスタリングクライアント(Clustered FL)を介したバニラFLの設定で高構造化データの不均一性に対処しようとしましたが、これらの方法は敏感でエラーになりやすく、DPノイズによってさらに悪化します。
この脆弱性により、以前の方法は、構造化されたデータの不均一性を備えた差別的にプライベートなFL(DPFL)設定に不適切になります。
このギャップに対処するために、システム内のDPノイズに堅牢で、基礎となるクライアントのクラスターを正しく識別する、差次的にプライベートなクラスター化されたFLのアルゴリズムを提案します。
この目的のために、モデルの更新とトレーニング損失値の両方に基づいてクライアントをクラスター化することを提案します。
さらに、最初のラウンドの終わりにクライアントのモデルの更新をクラスタリングするために、提案されたアプローチは、DPと確率ノイズの影響を減らし、潜在的なクラスタリングを回避するために、大きなバッチサイズとガウス混合モデル(GMM)を使用することにより、サーバーの不確実性に対処します。
エラー。
このアイデアは、特にDPノイズが多いプライバシーに敏感なシナリオで効率的です。
私たちは、私たちのアプローチを正当化し、多様なデータ分布とプライバシーの予算を通じてそれを評価するための理論分析を提供します。
私たちの実験結果は、DPFLの大規模な構造化データの不均一性に対処する際の有効性を示しています。

要約(オリジナル)

Federated learning (FL), which is a decentralized machine learning (ML) approach, often incorporates differential privacy (DP) to provide rigorous data privacy guarantees. Previous works attempted to address high structured data heterogeneity in vanilla FL settings through clustering clients (a.k.a clustered FL), but these methods remain sensitive and prone to errors, further exacerbated by the DP noise. This vulnerability makes the previous methods inappropriate for differentially private FL (DPFL) settings with structured data heterogeneity. To address this gap, we propose an algorithm for differentially private clustered FL, which is robust to the DP noise in the system and identifies the underlying clients’ clusters correctly. To this end, we propose to cluster clients based on both their model updates and training loss values. Furthermore, for clustering clients’ model updates at the end of the first round, our proposed approach addresses the server’s uncertainties by employing large batch sizes as well as Gaussian Mixture Models (GMM) to reduce the impact of DP and stochastic noise and avoid potential clustering errors. This idea is efficient especially in privacy-sensitive scenarios with more DP noise. We provide theoretical analysis to justify our approach and evaluate it across diverse data distributions and privacy budgets. Our experimental results show its effectiveness in addressing large structured data heterogeneity in DPFL.

arxiv情報

著者 Saber Malekmohammadi,Afaf Taik,Golnoosh Farnadi
発行日 2025-02-14 18:24:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.DC, cs.LG パーマリンク