Heterogeneous Datasets for Federated Survival Analysis Simulation

要約

生存分析は、集団で発生する関心のあるイベントの時間モデリング手法を研究します。
生存分析は、医療、工学、社会科学で広く応用されています。
ただし、生存モデルのトレーニングに必要なデータは、多くの場合、分散しており、不完全で、検閲されており、機密です。
このコンテキストでは、連合学習を活用して、ユーザーのプライバシーを保護しながら、分散データでトレーニングされたモデルの品質を大幅に向上させることができます。
ただし、連合生存分析はまだ開発の初期段階にあり、連合生存モデルをテストするための共通のベンチマーク データセットはありません。
この作業は、既存の非フェデレーション データセットから再現可能な方法で開始することにより、現実的な異種データセットを構築するための新しい手法を提供します。
具体的には、慎重に選択されたクライアントに各データ サンプルを割り当てるために、ディリクレ分布に基づく 2 つのデータセット分割アルゴリズムを提案します: 数量歪曲分割とラベル歪曲分割。
さらに、これらのアルゴリズムでは、単一のハイパーパラメーターを変更することで、さまざまなレベルの異質性を取得できます。
最後に、数値実験は、ログランク検定と生成された分割の定性分析を使用して、不均一性レベルの定量的評価を提供します。
提案された方法の実装は、再現性を優先し、生存分析のためにフェデレーション環境をシミュレートするための一般的な慣行を奨励するために公開されています。

要約(オリジナル)

Survival analysis studies time-modeling techniques for an event of interest occurring for a population. Survival analysis found widespread applications in healthcare, engineering, and social sciences. However, the data needed to train survival models are often distributed, incomplete, censored, and confidential. In this context, federated learning can be exploited to tremendously improve the quality of the models trained on distributed data while preserving user privacy. However, federated survival analysis is still in its early development, and there is no common benchmarking dataset to test federated survival models. This work provides a novel technique for constructing realistic heterogeneous datasets by starting from existing non-federated datasets in a reproducible way. Specifically, we propose two dataset-splitting algorithms based on the Dirichlet distribution to assign each data sample to a carefully chosen client: quantity-skewed splitting and label-skewed splitting. Furthermore, these algorithms allow for obtaining different levels of heterogeneity by changing a single hyperparameter. Finally, numerical experiments provide a quantitative evaluation of the heterogeneity level using log-rank tests and a qualitative analysis of the generated splits. The implementation of the proposed methods is publicly available in favor of reproducibility and to encourage common practices to simulate federated environments for survival analysis.

arxiv情報

著者 Alberto Archetti,Eugenio Lomurno,Francesco Lattari,André Martin,Matteo Matteucci
発行日 2023-02-21 17:25:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク