SurvivalGAN: Generating Time-to-Event Data for Survival Analysis

要約

合成データはますます有望な技術になりつつあり、アプリケーションを成功させることで、プライバシー、公平性、およびデータの民主化を向上させることができます。
合成表形式データを生成する方法は多数ありますが、そのタスクは依然として重要であり、特定のシナリオでは未調査のままです。
そのようなシナリオの 1 つが生存データです。
ここで、重要な問題は検閲です。場合によっては、イベントの時間、またはイベントが発生したかどうかさえわかりません。
打ち切りと時間範囲の不均衡により、生成モデルは生存分析に固有の 3 つの新しい失敗モードを経験します。(1) リスクのあるメンバーの生成が少なすぎます。
(2) リスクのあるメンバーが多すぎる。
(3) 検閲が早すぎる。
これらの故障モードを形式化し、それらを定量化するための 3 つの新しい生成メトリックを提供します。
これに続いて、最初に打ち切りとイベントの地平線の不均衡に対処し、次にイベント/打ち切りまでの時間を概算するための専用メカニズムを使用して、生存データを処理する生成モデルである SurvivalGAN を提案します。
医療データセットでの広範な実験を通じて、この方法を評価します。
SurvivalGAN は、生存データの生成において複数のベースラインよりも優れており、特に合成データでトレーニングされた生存モデルのダウンストリーム パフォーマンスを向上させることに加えて、新しいメトリックによって測定される故障モードに対処します。

要約(オリジナル)

Synthetic data is becoming an increasingly promising technology, and successful applications can improve privacy, fairness, and data democratization. While there are many methods for generating synthetic tabular data, the task remains non-trivial and unexplored for specific scenarios. One such scenario is survival data. Here, the key difficulty is censoring: for some instances, we are not aware of the time of event, or if one even occurred. Imbalances in censoring and time horizons cause generative models to experience three new failure modes specific to survival analysis: (1) generating too few at-risk members; (2) generating too many at-risk members; and (3) censoring too early. We formalize these failure modes and provide three new generative metrics to quantify them. Following this, we propose SurvivalGAN, a generative model that handles survival data firstly by addressing the imbalance in the censoring and event horizons, and secondly by using a dedicated mechanism for approximating time-to-event/censoring. We evaluate this method via extensive experiments on medical datasets. SurvivalGAN outperforms multiple baselines at generating survival data, and in particular addresses the failure modes as measured by the new metrics, in addition to improving downstream performance of survival models trained on the synthetic data.

arxiv情報

著者 Alexander Norcliffe,Bogdan Cebere,Fergus Imrie,Pietro Lio,Mihaela van der Schaar
発行日 2023-02-24 17:03:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク