Mitigating Disparate Impact of Differential Privacy in Federated Learning through Robust Clustering

要約

Federated Learning (FL) は、データをローカライズした状態に保つ分散型機械学習 (ML) アプローチであり、多くの場合、プライバシーの保証を強化するために差分プライバシー (DP) が組み込まれています。
ML における DP に関する以前の研究と同様に、差分プライベート連合学習 (DPFL) がパフォーマンスの格差をもたらし、特に少数派のグループに影響を与えることが観察されました。
最近の研究では、クラスタリングを通じてバニラ FL でのパフォーマンスの公平性に対処しようとしていますが、この方法は依然として敏感でエラーが発生しやすく、DPFL の DP ノイズによってさらに悪化します。
このギャップを埋めるために、本稿では、DP 保証による高精度を維持しながら、非常に異質な環境でクライアントのクラスターを効果的に識別するように設計された新しいクラスター化 DPFL アルゴリズムを提案します。
この目的を達成するために、モデルの更新とトレーニング損失値の両方に基づいてクライアントをクラスター化することを提案します。
私たちが提案するアプローチは、特にプライバシーに配慮したシナリオにおいて、ノイズと潜在的なクラスタリング エラーの影響を軽減するために、ガウス混合モデル (GMM) とともにより大きなバッチ サイズを採用することで、クライアントのモデル更新をクラスタリングする際のサーバーの不確実性にも対処します。
私たちが提案するアプローチの有効性について理論的分析を提供します。
また、さまざまなデータ分布とプライバシー予算にわたるアプローチを広範囲に評価し、フロリダ州設定における DP のさまざまな影響を少ない計算コストで軽減する有効性を示します。

要約(オリジナル)

Federated Learning (FL) is a decentralized machine learning (ML) approach that keeps data localized and often incorporates Differential Privacy (DP) to enhance privacy guarantees. Similar to previous work on DP in ML, we observed that differentially private federated learning (DPFL) introduces performance disparities, particularly affecting minority groups. Recent work has attempted to address performance fairness in vanilla FL through clustering, but this method remains sensitive and prone to errors, which are further exacerbated by the DP noise in DPFL. To fill this gap, in this paper, we propose a novel clustered DPFL algorithm designed to effectively identify clients’ clusters in highly heterogeneous settings while maintaining high accuracy with DP guarantees. To this end, we propose to cluster clients based on both their model updates and training loss values. Our proposed approach also addresses the server’s uncertainties in clustering clients’ model updates by employing larger batch sizes along with Gaussian Mixture Model (GMM) to alleviate the impact of noise and potential clustering errors, especially in privacy-sensitive scenarios. We provide theoretical analysis of the effectiveness of our proposed approach. We also extensively evaluate our approach across diverse data distributions and privacy budgets and show its effectiveness in mitigating the disparate impact of DP in FL settings with a small computational cost.

arxiv情報

著者 Saber Malekmohammadi,Afaf Taik,Golnoosh Farnadi
発行日 2024-05-29 17:03:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.DC, cs.LG パーマリンク