要約
医療視覚言語事前トレーニング モデル (VLPM) は、胸部 X 線 (CXR) と臨床テキストの融合において目覚ましい進歩を遂げ、ゼロショット学習と下流の臨床タスクを可能にする画像とテキストのデータ バインディング アプローチを導入しました。
しかし、現在の状況には、心電図 (ECG) などの追加の医療モダリティの総合的な統合が欠けています。
私たちは、CXR、ECG、および医療テキスト全体の結合埋め込みを学習する MEDBind (医療電子患者記録) を紹介します。
MEDBind は、テキスト データを中心アンカーとして使用するトリモダリティ バインディングを特徴としており、確立された VLPM に対するトップ K 検索、ゼロショット、および少数ショットのベンチマークで競争力のあるパフォーマンスを実現し、CXR から ECG へのゼロショット分類の機能を提供します。
そして回収。
このシームレスな統合は、モダリティとテキストのペアのコントラスト損失と、私たちが提案するコントラスト損失関数であるエッジモダリティコントラスト損失を組み合わせることによって実現され、CXR、ECG、テキストの一貫した埋め込み空間を促進します。
最後に、マルチモーダル プロンプト チューニング用の大規模言語モデルに CXR と ECG の埋め込みを直接統合することで、MEDBind が下流のタスクを改善できることを示します。
要約(オリジナル)
Medical vision-language pretraining models (VLPM) have achieved remarkable progress in fusing chest X-rays (CXR) with clinical texts, introducing image-text data binding approaches that enable zero-shot learning and downstream clinical tasks. However, the current landscape lacks the holistic integration of additional medical modalities, such as electrocardiograms (ECG). We present MEDBind (Medical Electronic patient recorD), which learns joint embeddings across CXR, ECG, and medical text. Using text data as the central anchor, MEDBind features tri-modality binding, delivering competitive performance in top-K retrieval, zero-shot, and few-shot benchmarks against established VLPM, and the ability for CXR-to-ECG zero-shot classification and retrieval. This seamless integration is achieved through combination of contrastive loss on modality-text pairs with our proposed contrastive loss function, Edge-Modality Contrastive Loss, fostering a cohesive embedding space for CXR, ECG, and text. Finally, we demonstrate that MEDBind can improve downstream tasks by directly integrating CXR and ECG embeddings into a large-language model for multimodal prompt tuning.
arxiv情報
著者 | Yuan Gao,Sangwook Kim,David E Austin,Chris McIntosh |
発行日 | 2024-03-20 04:56:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google