Quantifying the Impact of Label Noise on Federated Learning

要約

タイトル:フェデレーテッドラーニングにおけるラベルノイズの影響の定量化
要約:
– フェデレーテッドラーニング(FL)は、クライアントがそれぞれ持つローカルのデータセットを使って協力してモデルを学習する分散型機械学習の一種である。
– 既存の研究では、クライアント間のデータの異質性を解消するためのFLアルゴリズムの開発に注力しているが、データの品質(例:ラベルノイズ)の重要性は無視されている。
– この論文は、FLにおけるラベルノイズの影響について定量的な研究を提供し、クライアントのラベルノイズレベルに線形に関連する一般化エラーの上限を導出する。
– MNISTとCIFAR-10のデータセットを使用して、さまざまなFLアルゴリズムで実験を行った結果、ラベルノイズレベルが増加するにつれて、グローバルモデルの精度が線形に低下することがわかった。
– さらに、ラベルノイズはFLトレーニングの収束を遅らせ、ノイズレベルが高い場合にグローバルモデルが過学習する傾向があることが分かった。

要約(オリジナル)

Federated Learning (FL) is a distributed machine learning paradigm where clients collaboratively train a model using their local (human-generated) datasets. While existing studies focus on FL algorithm development to tackle data heterogeneity across clients, the important issue of data quality (e.g., label noise) in FL is overlooked. This paper aims to fill this gap by providing a quantitative study on the impact of label noise on FL. We derive an upper bound for the generalization error that is linear in the clients’ label noise level. Then we conduct experiments on MNIST and CIFAR-10 datasets using various FL algorithms. Our empirical results show that the global model accuracy linearly decreases as the noise level increases, which is consistent with our theoretical analysis. We further find that label noise slows down the convergence of FL training, and the global model tends to overfit when the noise level is high.

arxiv情報

著者 Shuqi Ke,Chao Huang,Xin Liu
発行日 2023-04-03 09:45:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.LG, stat.ML パーマリンク