Best of Both Worlds: Multimodal Contrastive Learning with Tabular and Imaging Data

要約

医療データセット、特にバイオバンクには、多くの場合、画像に加えて豊富な臨床情報を含む広範な表形式のデータが含まれています。
実際には、臨床医は通常、多様性と規模の両方の点でより少ないデータを持っていますが、それでもディープ ラーニング ソリューションの展開を望んでいます。
増加する医療データセットのサイズと高価な注釈コストと相まって、マルチモーダルに事前トレーニングし、ユニモーダルに予測できる教師なしメソッドの必要性が高まっています。
これらのニーズに対処するために、画像と表形式のデータを利用してユニモーダルエンコーダーをトレーニングする、最初の自己教師あり対照学習フレームワークを提案します。
私たちのソリューションは、SimCLR と SCARF という 2 つの主要な対照学習戦略を組み合わせたもので、シンプルで効果的です。
私たちの実験では、心臓 MR 画像と 40,000 人の英国バイオバンク被験者からの 120 の臨床的特徴を使用して、心筋梗塞と冠動脈疾患 (CAD) のリスクを予測することにより、フレームワークの強度を示しています。
さらに、DVM 自動車広告データセットを使用して、自然画像へのアプローチの一般化可能性を示します。
表形式データの高い解釈可能性を利用し、帰属およびアブレーション実験を通じて、サイズと形状を記述する形態計測表形式の特徴が、対照的な学習プロセス中に非常に重要であり、学習された埋め込みの品質を向上させることを発見しました。
最後に、マルチモーダル事前トレーニング中にグラウンド トゥルース ラベルを表形式の機能として追加することにより、教師あり対照学習の新しい形式である機能としてのラベル (LaaF) を導入し、すべての教師あり対照ベースラインよりも優れています。

要約(オリジナル)

Medical datasets and especially biobanks, often contain extensive tabular data with rich clinical information in addition to images. In practice, clinicians typically have less data, both in terms of diversity and scale, but still wish to deploy deep learning solutions. Combined with increasing medical dataset sizes and expensive annotation costs, the necessity for unsupervised methods that can pretrain multimodally and predict unimodally has risen. To address these needs, we propose the first self-supervised contrastive learning framework that takes advantage of images and tabular data to train unimodal encoders. Our solution combines SimCLR and SCARF, two leading contrastive learning strategies, and is simple and effective. In our experiments, we demonstrate the strength of our framework by predicting risks of myocardial infarction and coronary artery disease (CAD) using cardiac MR images and 120 clinical features from 40,000 UK Biobank subjects. Furthermore, we show the generalizability of our approach to natural images using the DVM car advertisement dataset. We take advantage of the high interpretability of tabular data and through attribution and ablation experiments find that morphometric tabular features, describing size and shape, have outsized importance during the contrastive learning process and improve the quality of the learned embeddings. Finally, we introduce a novel form of supervised contrastive learning, label as a feature (LaaF), by appending the ground truth label as a tabular feature during multimodal pretraining, outperforming all supervised contrastive baselines.

arxiv情報

著者 Paul Hager,Martin J. Menten,Daniel Rueckert
発行日 2023-03-27 14:24:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク