要約
電子医療記録 (EHR) や胸部 X 線画像 (CXR) などのマルチモーダル臨床データの統合は、臨床予測タスクに特に有益です。
ただし、時間的な設定では、マルチモーダル データは本質的に非同期であることがよくあります。
EHR は継続的に収集できますが、CXR はコストと放射線量が高いため、一般にはるかに長い間隔で採取されます。
臨床予測が必要な場合、最後に利用可能な CXR 画像が古い可能性があり、最適な予測が得られない可能性があります。
この課題に対処するために、個別化された CXR 画像の最新の潜在表現を動的に生成する方法である DDL-CXR を提案します。
私たちのアプローチは、以前のCXR画像とEHR時系列に戦略的に条件付けされた患者固有の生成のための潜在拡散モデルを活用し、それぞれ解剖学的構造と疾患の進行に関する情報を提供します。
このようにして、モダリティ間の相互作用が潜在 CXR 生成プロセスによってより適切に捕捉され、最終的に予測パフォーマンスが向上する可能性があります。
MIMIC データセットを使用した実験では、提案されたモデルがマルチモーダル融合における非同期性に効果的に対処でき、既存の手法を一貫して上回ることができることが示されています。
要約(オリジナル)
Integrating multi-modal clinical data, such as electronic health records (EHR) and chest X-ray images (CXR), is particularly beneficial for clinical prediction tasks. However, in a temporal setting, multi-modal data are often inherently asynchronous. EHR can be continuously collected but CXR is generally taken with a much longer interval due to its high cost and radiation dose. When clinical prediction is needed, the last available CXR image might have been outdated, leading to suboptimal predictions. To address this challenge, we propose DDL-CXR, a method that dynamically generates an up-to-date latent representation of the individualized CXR images. Our approach leverages latent diffusion models for patient-specific generation strategically conditioned on a previous CXR image and EHR time series, providing information regarding anatomical structures and disease progressions, respectively. In this way, the interaction across modalities could be better captured by the latent CXR generation process, ultimately improving the prediction performance. Experiments using MIMIC datasets show that the proposed model could effectively address asynchronicity in multimodal fusion and consistently outperform existing methods.
arxiv情報
著者 | Wenfang Yao,Chen Liu,Kejing Yin,William K. Cheung,Jing Qin |
発行日 | 2024-10-23 14:34:39+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google