Study of the performance and scalablity of federated learning for medical imaging with intermittent clients

要約

連合学習は、安全な方法で機械学習または深層学習を実行するために使用されるデータ分散化プライバシー保護技術です。
この論文では、集約演算子の提示、さまざまなタイプの連合学習、クライアントからのデータの配布に関連して考慮すべき問題など、連合学習に関する理論的側面を、
クライアントの数が変化するユースケース。
具体的には、オープンデータリポジトリから取得した胸部X線画像を使用した医療画像分析のユースケースを提案します。
プライバシーに関連する利点に加えて、予測の改善(精度と曲線下面積の観点から)と実行時間の短縮が、従来のケース(集中型アプローチ)に関して検討されます。
さまざまなクライアントがトレーニングデータからシミュレートされ、不均衡な方法で選択されます。つまり、すべてのクライアントが同じ数のデータを持っているわけではありません。
3つまたは10のクライアントを検討した結果が公開され、クライアント間および集中型のケースと比較されます。
断続的なクライアントの場合、従うべき2つのアプローチが分析されます。実際のシナリオでは、一部のクライアントがトレーニングを終了し、一部の新しいクライアントがトレーニングに参加する場合があります。
元のデータが分割されるクライアントの数が増えるにつれて、精度、曲線下の面積、および実行時間の観点からのテストセットの結果の変化が示されます。
最後に、この分野での改善と将来の作業が提案されます。

要約(オリジナル)

Federated learning is a data decentralization privacy-preserving technique used to perform machine or deep learning in a secure way. In this paper we present theoretical aspects about federated learning, such as the presentation of an aggregation operator, different types of federated learning, and issues to be taken into account in relation to the distribution of data from the clients, together with the exhaustive analysis of a use case where the number of clients varies. Specifically, a use case of medical image analysis is proposed, using chest X-ray images obtained from an open data repository. In addition to the advantages related to privacy, improvements in predictions (in terms of accuracy and area under the curve) and reduction of execution times will be studied with respect to the classical case (the centralized approach). Different clients will be simulated from the training data, selected in an unbalanced manner, i.e., they do not all have the same number of data. The results of considering three or ten clients are exposed and compared between them and against the centralized case. Two approaches to follow will be analyzed in the case of intermittent clients, as in a real scenario some clients may leave the training, and some new ones may enter the training. The evolution of the results for the test set in terms of accuracy, area under the curve and execution time is shown as the number of clients into which the original data is divided increases. Finally, improvements and future work in the field are proposed.

arxiv情報

著者 Judith Sáinz-Pardo Díaz,Álvaro López García
発行日 2022-07-18 13:18:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, eess.IV パーマリンク