Data Valuation and Detections in Federated Learning

要約

Federated Learning (FL) により、生データのプライバシーを保護しながら、協調的なモデル トレーニングが可能になります。
このフレームワークの課題は、データの公正かつ効率的な評価です。これは、クライアントが FL タスクに高品質のデータを提供するよう奨励するために重要です。
FL 内の多数のデータ クライアントが関与するシナリオでは、クライアントとデータセットのサブセットのみが特定の学習タスクに関連し、その他のクライアントとデータセットはモデル トレーニング プロセスにマイナスの影響を与えるか、無視できるほどの影響を与える可能性があることがよくあります。
この論文では、FL タスクで事前に指定されたトレーニング アルゴリズムを使用せずに、クライアントの貢献を評価し、関連するデータセットを選択するための新しいプライバシー保護方法を紹介します。
私たちが提案するアプローチ FedBary は、フェデレーテッド コンテキスト内で Wasserstein 距離を利用し、FL フレームワークでのデータ評価のための新しいソリューションを提供します。
この方法により、透過的なデータ評価とワッサーシュタイン重心の効率的な計算が保証され、検証データセットへの依存が軽減されます。
広範な実証実験と理論分析を通じて、私たちは FL 研究の有望な手段としてこのデータ評価方法の可能性を実証しました。

要約(オリジナル)

Federated Learning (FL) enables collaborative model training while preserving the privacy of raw data. A challenge in this framework is the fair and efficient valuation of data, which is crucial for incentivizing clients to contribute high-quality data in the FL task. In scenarios involving numerous data clients within FL, it is often the case that only a subset of clients and datasets are pertinent to a specific learning task, while others might have either a negative or negligible impact on the model training process. This paper introduces a novel privacy-preserving method for evaluating client contributions and selecting relevant datasets without a pre-specified training algorithm in an FL task. Our proposed approach FedBary, utilizes Wasserstein distance within the federated context, offering a new solution for data valuation in the FL framework. This method ensures transparent data valuation and efficient computation of the Wasserstein barycenter and reduces the dependence on validation datasets. Through extensive empirical experiments and theoretical analyses, we demonstrate the potential of this data valuation method as a promising avenue for FL research.

arxiv情報

著者 Wenqian Li,Shuran Fu,Fengrui Zhang,Yan Pang
発行日 2023-11-13 13:27:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.LG パーマリンク