Boosting Federated Learning with FedEntOpt: Mitigating Label Skew by Entropy-Based Client Selection

要約

ディープラーニングは、自然言語加工、コンピュータービジョンなど、さまざまな産業に革命をもたらす新興分野です。
これらのドメインは通常、最適なパフォーマンスのために広範な量のデータを必要とし、潜在的に巨大な集中データリポジトリを利用します。
ただし、このような集中化は、機密データの保存に関するプライバシーの問題を引き起こす可能性があります。
この問題に対処するために、連邦学習が開発されました。
これは、データプライバシーを損なうことなく、クライアントと呼ばれる分散型デバイスで深い学習モデルを協力的に訓練できるようにする新たに分散した学習手法です。
従来の連邦学習方法は、クライアント間のデータ分布が大幅に異なる場合、しばしば深刻な性能劣化に苦しんでいます。
これは、ラベルの分布スキューの場合に特に問題があり、ラベルの分布はクライアントによって異なります。
これに対処するために、Fedentoptと呼ばれる新しい方法が提案されています。
Fedentoptは、各連邦学習ラウンドにおける選択されたクライアントサブセットのグローバルラベル分布のエントロピーを最大化することにより、ラベル分布のスキューによって引き起こされるパフォーマンスの問題を軽減するように設計されています。
これにより、クライアントからの集約されたモデルパラメーターが利用可能なすべてのラベルのデータに展示され、グローバルモデルの精度が向上します。
複数のベンチマークデータセットでの広範な実験は、提案された方法が、モデルサイズに関係なく、標準設定の下で分類精度で最大6 \%でいくつかの最先端のアルゴリズムを上回ることを示しています。
さらに、参加率が低く、クライアントドロップアウトが低いシナリオで堅牢で優れたパフォーマンスを示し、30 \%を超える分類精度の増加を達成します。
さらに、Fedentoptは既存のアルゴリズムと組み合わせる柔軟性を提供し、パフォーマンスを40 \%以上増やします。

要約(オリジナル)

Deep learning is an emerging field revolutionizing various industries, including natural language processing, computer vision, and many more. These domains typically require an extensive amount of data for optimal performance, potentially utilizing huge centralized data repositories. However, such centralization could raise privacy issues concerning the storage of sensitive data. To address this issue, federated learning was developed. It is a newly distributed learning technique that enables to collaboratively train a deep learning model on decentralized devices, referred to as clients, without compromising their data privacy. Traditional federated learning methods often suffer from severe performance degradation when the data distribution among clients differs significantly. This becomes especially problematic in the case of label distribution skew, where the distribution of labels varies across clients. To address this, a novel method called FedEntOpt is proposed. FedEntOpt is designed to mitigate performance issues caused by label distribution skew by maximizing the entropy of the global label distribution of the selected client subset in each federated learning round. This ensures that the aggregated model parameters from the clients were exhibited to data from all available labels, which improves the accuracy of the global model. Extensive experiments on multiple benchmark datasets show that the proposed method outperforms several state-of-the-art algorithms by up to 6\% in classification accuracy under standard settings regardless of the model size. Moreover, it exhibits robust and superior performance in scenarios with low participation rates and client dropout, achieving increases in classification accuracy of over 30\%. In addition, FedEntOpt offers the flexibility to be combined with existing algorithms, enhancing their performance by over 40\%.

arxiv情報

著者 Andreas Lutz,Gabriele Steidl,Karsten Müller,Wojciech Samek
発行日 2025-01-29 14:17:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.DC, cs.LG パーマリンク