Best of Both Worlds: Multimodal Contrastive Learning with Tabular and Imaging Data

要約

タイトル:タブラーと画像データを用いたマルチモーダル・コントラスティブ学習のベスト・オブ・ボース・ワールド:
要約:
– 医療データセット、特にバイオバンクには、イメージに加えて豊富な臨床情報が含まれた大量のタブラー・データが含まれている。
– 臨床医師は、実際にはより少ない多様性とスケールのデータしか持っていないが、深層学習を展開したいと考えている。
– 本研究は、双方向エンコーダを学習させるセルフ・スーパーバイズド対照学習フレームワークを提案する。画像とタブラー・データを組み合わせて、これらのエンコーダを学習させる。
– 提案されたソリューションは、2つの主要なコントラスティブ学習戦略、SimCLRとSCARFを結合させたものであり、シンプルで効果的である。
– 実験により、心臓MRイメージと40,000人のUKバイオバンクの臨床機能120個から心筋梗塞と冠動脈疾患(CAD)のリスクを予測することができることを証明している。さらに、DVM車広告データセットを用いた自然画像に関するアプローチの汎化性能を示す。
– 本研究では、タブラー・データの高い解釈性を活用し、アトリビューション及びアブレーション実験により、形状とサイズを記述する形態測定タブラー特徴量がコントラスティブ学習プロセス中に特に重要であり、学習された埋め込みの品質を向上させることがわかった。
– 最後に、監視された対照学習の新しい形式、特徴量としてのラベル(LaaF)を導入し、多モーダル事前学習中の正解ラベルをタブラー特徴として追加することで、すべての監視された対照基準を上回る結果を出した。

要約(オリジナル)

Medical datasets and especially biobanks, often contain extensive tabular data with rich clinical information in addition to images. In practice, clinicians typically have less data, both in terms of diversity and scale, but still wish to deploy deep learning solutions. Combined with increasing medical dataset sizes and expensive annotation costs, the necessity for unsupervised methods that can pretrain multimodally and predict unimodally has risen. To address these needs, we propose the first self-supervised contrastive learning framework that takes advantage of images and tabular data to train unimodal encoders. Our solution combines SimCLR and SCARF, two leading contrastive learning strategies, and is simple and effective. In our experiments, we demonstrate the strength of our framework by predicting risks of myocardial infarction and coronary artery disease (CAD) using cardiac MR images and 120 clinical features from 40,000 UK Biobank subjects. Furthermore, we show the generalizability of our approach to natural images using the DVM car advertisement dataset. We take advantage of the high interpretability of tabular data and through attribution and ablation experiments find that morphometric tabular features, describing size and shape, have outsized importance during the contrastive learning process and improve the quality of the learned embeddings. Finally, we introduce a novel form of supervised contrastive learning, label as a feature (LaaF), by appending the ground truth label as a tabular feature during multimodal pretraining, outperforming all supervised contrastive baselines.

arxiv情報

著者 Paul Hager,Martin J. Menten,Daniel Rueckert
発行日 2023-03-30 12:40:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク