On the Impact of Data Heterogeneity in Federated Learning Environments with Application to Healthcare Networks

要約

Federated Learning (FL) を使用すると、プライバシーに敏感な複数のアプリケーションが、情報を一切公開することなく、データセットを活用してグローバル モデルを構築できます。
それらのドメインの 1 つはヘルスケアです。そこでは、サイロのグループが連携して、精度と一般性が向上したグローバル予測子を生成します。
しかし、本質的な課題は医療データの異質性の高さにあり、評価と補償には高度な技術が必要です。
この論文では、医療データの複雑さに焦点を当て、FL 環境内の異質性の数学的形式化と分類法の包括的な調査を示します。
特に、数量ベース、特徴およびラベルの分布ベースの不均一性に対処する能力に関して、最も一般的な FL アルゴリズムの評価と比較に取り組みます。
目標は、ヘルスケア ネットワーク向け FL システムにおけるデータの異質性の影響を定量的に評価し、FL アルゴリズムの選択に関するガイドラインを提供することです。
私たちの研究は、医療データのユースケースによってもたらされる特有の課題に対して、最も一般的な 7 つの FL アルゴリズムのベンチマークを行うことで、既存の研究を超えて拡張されています。
この論文は、さまざまな病院の連携機関によって収集された一連の表形式の臨床レポートを通じて、脳卒中再発のリスクを予測することを目的としています。このシナリオで頻繁に発生するデータの異質性と、それが FL のパフォーマンスに及ぼす影響について説明します。

要約(オリジナル)

Federated Learning (FL) allows multiple privacy-sensitive applications to leverage their dataset for a global model construction without any disclosure of the information. One of those domains is healthcare, where groups of silos collaborate in order to generate a global predictor with improved accuracy and generalization. However, the inherent challenge lies in the high heterogeneity of medical data, necessitating sophisticated techniques for assessment and compensation. This paper presents a comprehensive exploration of the mathematical formalization and taxonomy of heterogeneity within FL environments, focusing on the intricacies of medical data. In particular, we address the evaluation and comparison of the most popular FL algorithms with respect to their ability to cope with quantity-based, feature and label distribution-based heterogeneity. The goal is to provide a quantitative evaluation of the impact of data heterogeneity in FL systems for healthcare networks as well as a guideline on FL algorithm selection. Our research extends beyond existing studies by benchmarking seven of the most common FL algorithms against the unique challenges posed by medical data use cases. The paper targets the prediction of the risk of stroke recurrence through a set of tabular clinical reports collected by different federated hospital silos: data heterogeneity frequently encountered in this scenario and its impact on FL performance are discussed.

arxiv情報

著者 Usevalad Milasheuski. Luca Barbieri,Bernardo Camajori Tedeschini,Monica Nicoli,Stefano Savazzi
発行日 2024-05-01 15:20:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク