Non-IID data in Federated Learning: A Survey with Taxonomy, Metrics, Methods, Frameworks and Future Directions

要約

最近の機械学習の進歩により、複数の分散ユーザー (いわゆるクライアント) がプライベート データを共有せずに ML モデルを集合的にトレーニングできる有望なアプローチとして Federated Learning (FL) が注目されています。
このプライバシー保護方法は可能性を示していますが、クライアント間のデータが独立しておらず、同一に分散されている (非 IID) データではない場合には困難を伴います。
後者は未解決の課題のままであり、モデルのパフォーマンスが低下し、トレーニング時間が遅くなる可能性があります。
フロリダ州における非 IID データの重要性にもかかわらず、その分類と定量化については研究者の間で合意が得られていません。
この技術調査は、非 IID データ、パーティション プロトコル、データの異質性を定量化するためのメトリクスの詳細な分類を提供することで、そのギャップを埋めることを目的としています。
さらに、非 IID データに対処するための一般的なソリューションと、異種データを含むフロリダ州で採用されている標準化されたフレームワークについても説明します。
最先端の調査に基づいて、学んだ重要な教訓を提示し、将来の有望な研究の方向性を提案します。

要約(オリジナル)

Recent advances in machine learning have highlighted Federated Learning (FL) as a promising approach that enables multiple distributed users (so-called clients) to collectively train ML models without sharing their private data. While this privacy-preserving method shows potential, it struggles when data across clients is not independent and identically distributed (non-IID) data. The latter remains an unsolved challenge that can result in poorer model performance and slower training times. Despite the significance of non-IID data in FL, there is a lack of consensus among researchers about its classification and quantification. This technical survey aims to fill that gap by providing a detailed taxonomy for non-IID data, partition protocols, and metrics to quantify data heterogeneity. Additionally, we describe popular solutions to address non-IID data and standardized frameworks employed in FL with heterogeneous data. Based on our state-of-the-art survey, we present key lessons learned and suggest promising future research directions.

arxiv情報

著者 Daniel M. Jimenez G.,David Solans,Mikko Heikkila,Andrea Vitaletti,Nicolas Kourtellis,Aris Anagnostopoulos,Ioannis Chatzigiannakis
発行日 2024-12-12 18:16:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク