Towards the Practical Utility of Federated Learning in the Medical Domain


フェデレーテッド ラーニング (FL) は、活発な研究分野です。
FL の採用に最も適した分野の 1 つは、患者のプライバシーが尊重されなければならない医療分野です。
しかし、これまでの研究は、医療分野で FL を適用するための実践的なガイドを提供していません。
私たちは、長期にわたる電子健康記録、皮膚がん画像、心電図信号といった、さまざまなモダリティを備えた 3 つの代表的な医療データセットに対する経験的なベンチマークと実験設定を提案します。
現実世界の異質性を維持するために、データセットごとに、各クライアント データは異なるソースから取得されます。
クライアント間のデータの異質性に対処するために設計された 6 つの FL アルゴリズムと、2 つの代表的な FL アルゴリズムの長所を組み合わせたハイブリッド アルゴリズムを評価します。
3 つのモダリティからの実験結果に基づいて、単純な FL アルゴリズムがより洗練されたアルゴリズムよりも優れたパフォーマンスを発揮する傾向があるのに対し、ハイブリッド アルゴリズムは最高ではないにしても、一貫して良好なパフォーマンスを示していることがわかりました。
また、グローバル モデルを頻繁に更新すると、固定のトレーニング反復予算の下でパフォーマンスが向上することもわかりました。
参加するクライアントの数が増えると、IT 管理者と GPU の増加によりコストが増加しますが、パフォーマンスは一貫して向上します。
将来のユーザーは、これらの経験的ベンチマークを参照して、臨床タスクを考慮して医療領域での FL 実験を設計し、より低いコストでより強力なパフォーマンスを得ることが期待されます。


Federated learning (FL) is an active area of research. One of the most suitable areas for adopting FL is the medical domain, where patient privacy must be respected. Previous research, however, does not provide a practical guide to applying FL in the medical domain. We propose empirical benchmarks and experimental settings for three representative medical datasets with different modalities: longitudinal electronic health records, skin cancer images, and electrocardiogram signals. The likely users of FL such as medical institutions and IT companies can take these benchmarks as guides for adopting FL and minimize their trial and error. For each dataset, each client data is from a different source to preserve real-world heterogeneity. We evaluate six FL algorithms designed for addressing data heterogeneity among clients, and a hybrid algorithm combining the strengths of two representative FL algorithms. Based on experiment results from three modalities, we discover that simple FL algorithms tend to outperform more sophisticated ones, while the hybrid algorithm consistently shows good, if not the best performance. We also find that a frequent global model update leads to better performance under a fixed training iteration budget. As the number of participating clients increases, higher cost is incurred due to increased IT administrators and GPUs, but the performance consistently increases. We expect future users will refer to these empirical benchmarks to design the FL experiments in the medical domain considering their clinical tasks and obtain stronger performance with lower costs.


著者 Seongjun Yang,Hyeonji Hwang,Daeyoung Kim,Radhika Dua,Jong-Yeup Kim,Eunho Yang,Edward Choi
発行日 2023-05-19 14:01:34+00:00
arxivサイト arxiv_id(pdf)

