要約
私たちは、複雑な共変量(目のスキャンなど)と長期的な観察(経時的な視力など)を組み合わせた患者データを合成するための新しいフレームワークを提示し、医療研究におけるプライバシーの懸念に対処します。
私たちのアプローチは、各データモダリティを生成する潜在空間に制御された関連付けを導入し、複雑な共変量と縦方向の観測ペアの作成を可能にします。
このフレームワークは、予測モデルの開発を促進し、医療研究向けにオープンに利用可能なベンチマーク データセットを提供します。
光コヒーレンストモグラフィー (OCT) スキャンを使用してフレームワークを実証しますが、これはドメイン全体に適用できます。
109,309 の 2D OCT スキャン スライスを使用して、変分オートエンコーダーと拡散モデルを組み合わせた画像生成モデルをトレーニングしました。
縦断観測は、ランダム効果の低次元空間からの非線形混合効果 (NLME) モデルを使用してシミュレートされました。
制御された関連レベル(被験者間の変動の100%、50%、10%、5.26%、および2%)での5セットの縦断観察とペアになった110万のOCTスキャンスライスを生成しました。
このフレームワークを評価するために、別の NLME モデルを使用して合成縦断観測をモデル化し、変量効果の経験的ベイズ推定値を計算し、合成 OCT スキャンからこれらの推定値を予測するように ResNet をトレーニングしました。
次に、患者個別の予測のために ResNet 予測を NLME モデルに組み込みました。
保留されたデータの予測精度は、画像と縦方向の測定値の間の関連性が低下したため、意図したとおり低下しました。
特に、2% を除くすべてのケースで、保留されたデータに関する理論上の可能な限り最良の予測の 50% 以内を達成し、弱いシグナルさえも検出できる能力を実証しました。
これは、関連レベルが制御された合成データを生成する際のフレームワークの有効性を裏付け、ヘルスケア研究に貴重なツールを提供します。
要約(オリジナル)
We present a novel framework for synthesizing patient data with complex covariates (e.g., eye scans) paired with longitudinal observations (e.g., visual acuity over time), addressing privacy concerns in healthcare research. Our approach introduces controlled association in latent spaces generating each data modality, enabling the creation of complex covariate-longitudinal observation pairs. This framework facilitates the development of predictive models and provides openly available benchmarking datasets for healthcare research. We demonstrate our framework using optical coherence tomography (OCT) scans, though it is applicable across domains. Using 109,309 2D OCT scan slices, we trained an image generative model combining a variational autoencoder and a diffusion model. Longitudinal observations were simulated using a nonlinear mixed effect (NLME) model from a low-dimensional space of random effects. We generated 1.1M OCT scan slices paired with five sets of longitudinal observations at controlled association levels (100%, 50%, 10%, 5.26%, and 2% of between-subject variability). To assess the framework, we modeled synthetic longitudinal observations with another NLME model, computed empirical Bayes estimates of random effects, and trained a ResNet to predict these estimates from synthetic OCT scans. We then incorporated ResNet predictions into the NLME model for patient-individualized predictions. Prediction accuracy on withheld data declined as intended with reduced association between images and longitudinal measurements. Notably, in all but the 2% case, we achieved within 50% of the theoretical best possible prediction on withheld data, demonstrating our ability to detect even weak signals. This confirms the effectiveness of our framework in generating synthetic data with controlled levels of association, providing a valuable tool for healthcare research.
arxiv情報
著者 | Simon Deltadahl,Andreu Vall,Vijay Ivaturi,Niklas Korsbo |
発行日 | 2024-10-21 16:43:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google