Multi-modal Masked Siamese Network Improves Chest X-Ray Representation Learning

要約

医用画像の自己教師付き学習法は、主に事前学習時に画像モダリティに依存する。このようなアプローチは有望な結果をもたらすが、電子カルテ(EHR)内で収集された関連する患者情報やスキャン情報を活用することはできない。ここでは、胸部X線表現の質を向上させるために、マスクド・シャムネットワーク(MSN)を用いた自己教師付き事前学習中にEHRデータを組み込むことを提案する。我々は、人口統計情報、スキャンメタデータ、入院情報を含む3種類のEHRデータを調査する。MIMIC-CXR、CheXpert、NIH-14の3つの一般公開されている胸部X線データセットについて、2つのビジョン変換器(ViT)バックボーン(特にViT-TinyとViT-Small)を用いて我々のアプローチを評価する。線形評価による表現品質の評価において、我々の提案手法は、バニラMSNや最先端の自己教師付き学習ベースラインと比較して、有意な改善を示した。我々の研究は、医療画像診断のためのEHRを強化した自己教師付き事前学習の可能性を強調している。コードは https://github.com/nyuad-cai/CXR-EHR-MSN で公開されている。

要約(オリジナル)

Self-supervised learning methods for medical images primarily rely on the imaging modality during pretraining. While such approaches deliver promising results, they do not leverage associated patient or scan information collected within Electronic Health Records (EHR). Here, we propose to incorporate EHR data during self-supervised pretraining with a Masked Siamese Network (MSN) to enhance the quality of chest X-ray representations. We investigate three types of EHR data, including demographic, scan metadata, and inpatient stay information. We evaluate our approach on three publicly available chest X-ray datasets, MIMIC-CXR, CheXpert, and NIH-14, using two vision transformer (ViT) backbones, specifically ViT-Tiny and ViT-Small. In assessing the quality of the representations via linear evaluation, our proposed method demonstrates significant improvement compared to vanilla MSN and state-of-the-art self-supervised learning baselines. Our work highlights the potential of EHR-enhanced self-supervised pre-training for medical imaging. The code is publicly available at: https://github.com/nyuad-cai/CXR-EHR-MSN

arxiv情報

著者 Saeed Shurrab,Alejandro Guerra-Manzanares,Farah E. Shamout
発行日 2024-07-05 12:04:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク