Data Valuation and Detections in Federated Learning

要約

Federated Learning (FL) により、生データを共有せずに協調的なモデル トレーニングが可能になり、モデルのパフォーマンスを最適化するには豊富で高品質なデータが必要になります。
公正かつ効率的なデータ評価は、クライアントがより高品質なデータを提供するよう促すための基本的な問題です。
一方、クライアントとデータセットのサブセットのみが学習タスクに関連し、残りの部分はモデルのトレーニングに悪影響を与える可能性があります。
このペーパーでは、事前に指定されたトレーニング アルゴリズムを使用せずに、クライアントの貢献を評価し、関連するデータ サンプルを選択するための新しいプライバシー保護方法を紹介します。
私たちが提案するアプローチである FedBary は、フェデレーテッド コンテキスト内で Wasserstein 距離を利用し、データ評価のための新しい先駆的なソリューションを提供します。これにより、透明性のあるデータ評価と、検証データへの依存を軽減するための Wasserstein 重心の効率的な計算が実現します。
私たちは広範な実証実験と理論分析を実施し、この評価指標の有望な研究を示しています。

要約(オリジナル)

Federated Learning (FL) enables collaborative model training without sharing raw data, demanding abundant, high-quality data for optimal model performance. Fair and efficient data evaluation is a fundamental issue for incentivizing clients to provide more high-quality data. Meanwhile, it is likely that only a subset of clients and datasets are relevant for a learning task while the rest of them may have a negative impact on the model training. This paper introduces a novel privacy-preserving method for evaluating client contributions and selecting relevant data samples without a pre-specified training algorithm. Our proposed approach, FedBary, utilizes Wasserstein distance within the federated context, offering a new pioneering solution for data valuation, which provides transparent data evaluation and efficient computation of Wasserstein barycenter to mitigate reliance on validation data. We conduct extensive empirical experiments and theoretical analysis, showing the promising research of this valuation metric.

arxiv情報

著者 Wenqian Li,Shuran Fu,Fengrui Zhang,Yan Pang
発行日 2023-11-09 12:01:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.LG パーマリンク