FLamby: Datasets and Benchmarks for Cross-Silo Federated Learning in Realistic Healthcare Settings

要約

タイトル:リアルな医療設定における跨シロフェデレーテッド学習のためのデータセットとベンチマーク「FLamby」

要約:
– Federated Learning(FL)は、中央集権的なデータを持たない複数のクライアントが協力して機械学習モデルをトレーニングすることを可能にする革新的なアプローチである。
– 跨シロFL設定は、2-50の信頼できるクライアントがそれぞれ中程度から大規模なデータセットを保持している場合に対応し、医療、金融、産業などのアプリケーションで一般的に使用される。
– 過去には跨デバイスFLの代表的なデータセットが提案されたが、現実的な医療の跨シロFLデータセットはほとんど存在せず、この重要なアプリケーションにおけるアルゴリズム研究の進展が遅れている。
– 本論文では、跨シロFLの理論と実践のギャップを埋めるために、7つの医療データセットを含むFLamby(跨シロ戦略の豊富なベンチマーク)という新しい跨シロデータセットスイートを提案する。
– FLambyは、複数のタスク、モダリティ、データ量をカバーする自然な分割のヘルスケアデータセットを搭載し、ベースライントレーニングコードとともに提供される。
– さらに、標準のFLアルゴリズムをすべてのデータセットでベンチマークし、柔軟でモジュラーなスイートによって、研究者はデータセットを簡単にダウンロードし、結果を再現し、異なるコンポーネントを再利用することができる。
– FLambyは、\url{www.github.com/owkin/flamby}で利用可能である。

要約(オリジナル)

Federated Learning (FL) is a novel approach enabling several clients holding sensitive data to collaboratively train machine learning models, without centralizing data. The cross-silo FL setting corresponds to the case of few ($2$–$50$) reliable clients, each holding medium to large datasets, and is typically found in applications such as healthcare, finance, or industry. While previous works have proposed representative datasets for cross-device FL, few realistic healthcare cross-silo FL datasets exist, thereby slowing algorithmic research in this critical application. In this work, we propose a novel cross-silo dataset suite focused on healthcare, FLamby (Federated Learning AMple Benchmark of Your cross-silo strategies), to bridge the gap between theory and practice of cross-silo FL. FLamby encompasses 7 healthcare datasets with natural splits, covering multiple tasks, modalities, and data volumes, each accompanied with baseline training code. As an illustration, we additionally benchmark standard FL algorithms on all datasets. Our flexible and modular suite allows researchers to easily download datasets, reproduce results and re-use the different components for their research. FLamby is available at~\url{www.github.com/owkin/flamby}.

arxiv情報

著者 Jean Ogier du Terrail,Samy-Safwan Ayed,Edwige Cyffers,Felix Grimberg,Chaoyang He,Regis Loeb,Paul Mangold,Tanguy Marchand,Othmane Marfoq,Erum Mushtaq,Boris Muzellec,Constantin Philippenko,Santiago Silva,Maria Teleńczuk,Shadi Albarqouni,Salman Avestimehr,Aurélien Bellet,Aymeric Dieuleveut,Martin Jaggi,Sai Praneeth Karimireddy,Marco Lorenzi,Giovanni Neglia,Marc Tommasi,Mathieu Andreux
発行日 2023-05-05 08:48:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV, cs.LG パーマリンク