要約
マルチモーダル フュージョン アプローチは、さまざまなデータ ソースからの情報を統合することを目的としています。
サンプルが「対になった」モダリティで構成される視聴覚アプリケーションなどの自然なデータセットとは異なり、ヘルスケアのデータは非同期で収集されることがよくあります。
したがって、特定のサンプルに対してすべてのモダリティの存在を要求することは、臨床タスクにとって現実的ではなく、トレーニング中のデータセットのサイズを大幅に制限します。
このホワイトペーパーでは、マルチモーダル入力だけでなくユニモーダル入力にも対応できる、概念的にシンプルでありながら有望な LSTM ベースの融合モジュールである MedFuse を提案します。
融合法を評価し、MIMIC-IV データセットの臨床時系列データと MIMIC-CXR の対応する胸部 X 線画像を使用して、院内死亡率予測と表現型分類の新しいベンチマーク結果を紹介します。
より複雑なマルチモーダル フュージョン戦略と比較して、MedFuse は、完全にペアになったテスト セットでパフォーマンスを大幅に向上させます。
また、胸部 X 線画像が欠落しているサンプルを含む、部分的にペアになったテスト セット全体で堅牢なままです。
再現性を確保し、将来の競合モデルの評価を可能にするために、コードをリリースします。
要約(オリジナル)
Multi-modal fusion approaches aim to integrate information from different data sources. Unlike natural datasets, such as in audio-visual applications, where samples consist of ‘paired’ modalities, data in healthcare is often collected asynchronously. Hence, requiring the presence of all modalities for a given sample is not realistic for clinical tasks and significantly limits the size of the dataset during training. In this paper, we propose MedFuse, a conceptually simple yet promising LSTM-based fusion module that can accommodate uni-modal as well as multi-modal input. We evaluate the fusion method and introduce new benchmark results for in-hospital mortality prediction and phenotype classification, using clinical time-series data in the MIMIC-IV dataset and corresponding chest X-ray images in MIMIC-CXR. Compared to more complex multi-modal fusion strategies, MedFuse provides a performance improvement by a large margin on the fully paired test set. It also remains robust across the partially paired test set containing samples with missing chest X-ray images. We release our code for reproducibility and to enable the evaluation of competing models in the future.
arxiv情報
| 著者 | Nasir Hayat,Krzysztof J. Geras,Farah E. Shamout |
| 発行日 | 2023-03-02 14:49:06+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google