Scaling Survival Analysis in Healthcare with Federated Survival Forests: A Comparative Study on Heart Failure and Breast Cancer Genomics

要約

生存分析は医学の基本的なツールであり、母集団において関心のあるイベントが発生するまでの時間をモデル化する。しかし,実世界のアプリケーションでは,生存データはしばしば不完全であり,打ち切られ,分散され,特にプライバシーが重要な医療環境では秘密である.データの希少性は、大規模なデータプールに依存する分散アプリケーションへの生存モデルのスケーラビリティを著しく制限する可能性がある。連合学習は、ユーザーのプライバシーを損なうことなく、複数のデータセットで機械学習モデルの学習を可能にする有望な技術であり、生存データと大規模な生存アプリケーションの課題に対処するのに特に適している。分類と回帰のための連合学習における重要な発展にもかかわらず、生存分析の文脈では多くの方向性が未解明のままである。本研究では、FedSurF++と呼ばれる、連合生存林アルゴリズムの拡張を提案する。この連合アンサンブル手法は、異種連合でランダム生存林を構築する。具体的には、クライアントフォレストからのいくつかの新しいツリーサンプリング法を調査し、その結果をニューラルネットワークに基づく最新の生存モデルと比較する。FedSurF++の主な利点は、既存の手法に匹敵する性能を達成しながら、1回の通信ラウンドで完了できることである。広範な実証的調査の結果、アルゴリズムとプライバシー保持の観点から大幅な改善が見られ、オリジナルの FedSurF アルゴリズムはより効率的で頑健、かつプライベートなものとなった。また、実世界のヘルスケア研究における FedSurF++ の成功を実証する2つの実世界データセットの結果も発表します。我々の結果は、FedSurF++ がユーザーのプライバシーを保持しながら、分散環境における生存分析のスケーラビリティと有効性を改善する可能性を強調しています。

要約(オリジナル)

Survival analysis is a fundamental tool in medicine, modeling the time until an event of interest occurs in a population. However, in real-world applications, survival data are often incomplete, censored, distributed, and confidential, especially in healthcare settings where privacy is critical. The scarcity of data can severely limit the scalability of survival models to distributed applications that rely on large data pools. Federated learning is a promising technique that enables machine learning models to be trained on multiple datasets without compromising user privacy, making it particularly well-suited for addressing the challenges of survival data and large-scale survival applications. Despite significant developments in federated learning for classification and regression, many directions remain unexplored in the context of survival analysis. In this work, we propose an extension of the Federated Survival Forest algorithm, called FedSurF++. This federated ensemble method constructs random survival forests in heterogeneous federations. Specifically, we investigate several new tree sampling methods from client forests and compare the results with state-of-the-art survival models based on neural networks. The key advantage of FedSurF++ is its ability to achieve comparable performance to existing methods while requiring only a single communication round to complete. The extensive empirical investigation results in a significant improvement from the algorithmic and privacy preservation perspectives, making the original FedSurF algorithm more efficient, robust, and private. We also present results on two real-world datasets demonstrating the success of FedSurF++ in real-world healthcare studies. Our results underscore the potential of FedSurF++ to improve the scalability and effectiveness of survival analysis in distributed settings while preserving user privacy.

arxiv情報

著者 Alberto Archetti,Francesca Ieva,Matteo Matteucci
発行日 2023-08-04 15:25:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG パーマリンク