Learning Unlabeled Clients Divergence for Federated Semi-Supervised Learning via Anchor Model Aggregation

要約

Federated Semi-Supervised Learning (FedSemi) とは、データのプライバシーを維持しながら、完全にラベル付けされたデータを持つクライアント、部分的にラベル付けされたクライアント、さらには完全にラベル付けされていないクライアントが存在するシナリオを指します。
ただし、未定義の異種クラスの分布や誤った擬似ラベルによるクライアントのドリフトによって課題が発生します。
既存の FedSemi メソッドは通常、本質的に信頼性が低いため、ラベルのないクライアントからのモデルを集約できず、異種データ分布からの固有の情報が見落とされ、次善の結果が生じます。
このペーパーでは、新しい半監視アンカーベースのフェデレーテッド アグリゲーションである SemiAnAgg を通じて、ラベルなしのクライアント アグリゲーションを有効にします。
SemiAnAgg は、アンカー モデルを通じてラベルのないクライアントの貢献を学習し、その有益な価値を効果的に活用します。
私たちの重要なアイデアは、ローカル クライアント データを同じグローバル モデルと一貫して初期化された同じアンカー モデル (つまり、ランダム モデル) にフィードすることで、それに応じてラベルのない各クライアントの重要性を測定できるということです。
広範な実験により、SemiAnAgg が広く使用されている 4 つの FedSemi ベンチマークで新しい最先端の結果を達成し、大幅なパフォーマンスの向上につながることが実証されました。CIFAR-100 の精度が 9% 向上し、医療データセット ISIC の再現率が 7.6% 向上しました。
-18、従来の最先端技術と比較。
コードは https://github.com/xmed-lab/SemiAnAgg から入手できます。

要約(オリジナル)

Federated semi-supervised learning (FedSemi) refers to scenarios where there may be clients with fully labeled data, clients with partially labeled, and even fully unlabeled clients while preserving data privacy. However, challenges arise from client drift due to undefined heterogeneous class distributions and erroneous pseudo-labels. Existing FedSemi methods typically fail to aggregate models from unlabeled clients due to their inherent unreliability, thus overlooking unique information from their heterogeneous data distribution, leading to sub-optimal results. In this paper, we enable unlabeled client aggregation through SemiAnAgg, a novel Semi-supervised Anchor-Based federated Aggregation. SemiAnAgg learns unlabeled client contributions via an anchor model, effectively harnessing their informative value. Our key idea is that by feeding local client data to the same global model and the same consistently initialized anchor model (i.e., random model), we can measure the importance of each unlabeled client accordingly. Extensive experiments demonstrate that SemiAnAgg achieves new state-of-the-art results on four widely used FedSemi benchmarks, leading to substantial performance improvements: a 9% increase in accuracy on CIFAR-100 and a 7.6% improvement in recall on the medical dataset ISIC-18, compared with prior state-of-the-art. Code is available at: https://github.com/xmed-lab/SemiAnAgg.

arxiv情報

著者 Marawan Elbatel,Hualiang Wang,Jixiang Chen,Hao Wang,Xiaomeng Li
発行日 2024-10-25 14:39:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク