Distributionally Robust Clustered Federated Learning: A Case Study in Healthcare

要約

このペーパーでは、クロスサイロ フェデレーテッド ラーニング (CS-RCFL) と名付けた新しいアルゴリズムを導入することで、クロスサイロ フェデレーション ラーニングにおける異種データ分散の課題に対処します。
私たちのアプローチは、ワッサーシュタイン距離を利用して、各クライアントの経験的分布を中心とした曖昧性セットを構築し、ローカル データ内で起こり得る分布シフトを捕捉し、最悪の場合のモデル パフォーマンスの評価を可能にします。
次に、統計的に不均一なクライアント データセットによって引き起こされるローカル モデルのバイアスを回避するために、クライアントを連合に分散する最適な分布的に堅牢なクラスタリングを決定するモデルに依存しない整数分数プログラムを提案し、線形回帰モデルとロジスティック回帰モデルの方法を分析します。
最後に、クライアント配信のプライバシーを確​​保するフェデレーテッド ラーニング プロトコルについて説明します。これは、クライアントが医療機関である場合などに重要な考慮事項です。
私たちは合成および現実世界の医療データに基づいてアルゴリズムを評価します。

要約(オリジナル)

In this paper, we address the challenge of heterogeneous data distributions in cross-silo federated learning by introducing a novel algorithm, which we term Cross-silo Robust Clustered Federated Learning (CS-RCFL). Our approach leverages the Wasserstein distance to construct ambiguity sets around each client’s empirical distribution that capture possible distribution shifts in the local data, enabling evaluation of worst-case model performance. We then propose a model-agnostic integer fractional program to determine the optimal distributionally robust clustering of clients into coalitions so that possible biases in the local models caused by statistically heterogeneous client datasets are avoided, and analyze our method for linear and logistic regression models. Finally, we discuss a federated learning protocol that ensures the privacy of client distributions, a critical consideration, for instance, when clients are healthcare institutions. We evaluate our algorithm on synthetic and real-world healthcare data.

arxiv情報

著者 Xenia Konti,Hans Riess,Manos Giannopoulos,Yi Shen,Michael J. Pencina,Nicoleta J. Economou-Zavlanos,Michael M. Zavlanos
発行日 2024-10-09 16:25:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク