MedFuse: Multi-modal fusion with clinical time-series data and chest X-ray images

要約

マルチモーダルフュージョンアプローチは、さまざまなデータソースからの情報を統合することを目的としています。
サンプルが「ペアの」モダリティで構成されるオーディオビジュアルアプリケーションなどの自然なデータセットとは異なり、ヘルスケアのデータは非同期で収集されることがよくあります。
したがって、特定のサンプルにすべてのモダリティの存在を要求することは、臨床タスクにとって現実的ではなく、トレーニング中のデータセットのサイズを大幅に制限します。
この論文では、ユニモーダル入力とマルチモーダル入力に対応できる、概念的にシンプルでありながら有望なLSTMベースの融合モジュールであるMedFuseを提案します。
MIMIC-IVデータセットの臨床時系列データとMIMIC-CXRの対応する胸部X線画像を使用して、融合法を評価し、院内死亡率予測と表現型分類の新しいベンチマーク結果を紹介します。
より複雑なマルチモーダルフュージョン戦略と比較して、MedFuseは、完全にペアリングされたテストセットで大幅なパフォーマンスの向上を提供します。
また、胸部X線画像が欠落しているサンプルを含む部分的にペアになっているテストセット全体で堅牢なままです。
再現性と将来の競合モデルの評価を可能にするために、コードをリリースします。

要約(オリジナル)

Multi-modal fusion approaches aim to integrate information from different data sources. Unlike natural datasets, such as in audio-visual applications, where samples consist of ‘paired’ modalities, data in healthcare is often collected asynchronously. Hence, requiring the presence of all modalities for a given sample is not realistic for clinical tasks and significantly limits the size of the dataset during training. In this paper, we propose MedFuse, a conceptually simple yet promising LSTM-based fusion module that can accommodate uni-modal as well as multi-modal input. We evaluate the fusion method and introduce new benchmark results for in-hospital mortality prediction and phenotype classification, using clinical time-series data in the MIMIC-IV dataset and corresponding chest X-ray images in MIMIC-CXR. Compared to more complex multi-modal fusion strategies, MedFuse provides a performance improvement by a large margin on the fully paired test set. It also remains robust across the partially paired test set containing samples with missing chest X-ray images. We release our code for reproducibility and to enable the evaluation of competing models in the future.

arxiv情報

著者 Nasir Hayat,Krzysztof J. Geras,Farah E. Shamout
発行日 2022-07-14 15:59:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, eess.IV パーマリンク