Understanding Federated Learning from IID to Non-IID dataset: An Experimental Study

要約

プライバシーに関する懸念やデータ規制が高まる中、分散化されたデータソース間で、生データを共有することなく機械学習モデルを学習するための有望なアプローチとして、連携学習(FL)が登場している。しかし、FLにおける重要な課題は、クライアントデータがしばしば非IID(非独立・同一分散)であることであり、集中型学習と比較してパフォーマンスが低下する。この問題に対処するために多くの手法が提案されているが、その基本的なメカニズムはしばしば異なる観点から捉えられている。勾配降下からFLまで、またIIDから非IIDのデータ設定までの包括的な調査を通じて、我々は、クライアントの損失ランドスケープの不整合が、主に非IIDシナリオにおいて性能低下を引き起こすことを発見した。この理解から、既存の手法は、(i)パラメータ更新経路の調整と(ii)クライアント損失ランドスケープの修正という2つの主要な戦略に分類できることがわかる。これらの知見は、FLにおける非IID課題に対処するための明確な視点を提供し、この分野における将来の研究の指針となる。

要約(オリジナル)

As privacy concerns and data regulations grow, federated learning (FL) has emerged as a promising approach for training machine learning models across decentralized data sources without sharing raw data. However, a significant challenge in FL is that client data are often non-IID (non-independent and identically distributed), leading to reduced performance compared to centralized learning. While many methods have been proposed to address this issue, their underlying mechanisms are often viewed from different perspectives. Through a comprehensive investigation from gradient descent to FL, and from IID to non-IID data settings, we find that inconsistencies in client loss landscapes primarily cause performance degradation in non-IID scenarios. From this understanding, we observe that existing methods can be grouped into two main strategies: (i) adjusting parameter update paths and (ii) modifying client loss landscapes. These findings offer a clear perspective on addressing non-IID challenges in FL and help guide future research in the field.

arxiv情報

著者 Jungwon Seo,Ferhat Ozgur Catak,Chunming Rong
発行日 2025-06-03 16:38:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG, stat.ML パーマリンク