A Universal Metric of Dataset Similarity for Cross-silo Federated Learning

要約

Federated Learning は、データを共有せずに協調的なモデル トレーニングを促進するために、ヘルスケアなどの分野で使用されることが増えています。
ただし、さまざまなサイトにあるデータセットは非同一に分散していることが多く、フロリダ州のモデルのパフォーマンスの低下につながります。
これらの分布の変化を評価するための既存の方法のほとんどは、データセットまたはタスク固有であるため制限されています。
さらに、これらのメトリックはデータを交換することによってのみ計算できますが、これは多くの FL シナリオで制限されています。
これらの課題に対処するために、データセットの類似性を評価するための新しい指標を提案します。
私たちのメトリックは、FL にとって望ましい特性をいくつか示しています。データセットに依存せず、プライバシーを保護する方法で計算され、計算効率が高く、モデルのトレーニングが不要です。
この論文では、まずメトリクスとフロリダ州のトレーニングダイナミクスの間の理論的な関係を確立します。
次に、合成データセット、ベンチマーク データセット、医療画像データセットなどのさまざまなデータセットに関する指標を広範囲に評価します。
私たちのメトリクスは、モデルのパフォーマンスと堅牢かつ解釈可能な関係を示しており、プライバシーを保護する方法で計算できることを実証します。
最初のフェデレーション データセットの類似性メトリクスとして、このメトリクスがサイト間のコラボレーションの成功をより促進できると考えています。

要約(オリジナル)

Federated Learning is increasingly used in domains such as healthcare to facilitate collaborative model training without data-sharing. However, datasets located in different sites are often non-identically distributed, leading to degradation of model performance in FL. Most existing methods for assessing these distribution shifts are limited by being dataset or task-specific. Moreover, these metrics can only be calculated by exchanging data, a practice restricted in many FL scenarios. To address these challenges, we propose a novel metric for assessing dataset similarity. Our metric exhibits several desirable properties for FL: it is dataset-agnostic, is calculated in a privacy-preserving manner, and is computationally efficient, requiring no model training. In this paper, we first establish a theoretical connection between our metric and training dynamics in FL. Next, we extensively evaluate our metric on a range of datasets including synthetic, benchmark, and medical imaging datasets. We demonstrate that our metric shows a robust and interpretable relationship with model performance and can be calculated in privacy-preserving manner. As the first federated dataset similarity metric, we believe this metric can better facilitate successful collaborations between sites.

arxiv情報

著者 Ahmed Elhussein,Gamze Gursoy
発行日 2024-04-29 15:08:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク