要約
Medical Vision-Language Pretraining (Med-VLP) は、医療画像からの視覚コンテンツと関連するテキストの説明の間の接続を確立します。
既存の Med-VLP 手法は主に、単一の身体部分を描写する 2D 画像、特に胸部 X 線画像に焦点を当てています。
この論文では、CT 画像とレポートのマルチモーダル データセットを使用して、Med-VLP の範囲を 3D 画像、特に全身シナリオを対象とするように拡張します。
2D 対応物と比較して、3D VLP は、3D イメージングにおける非常にまばらな表現から本質的なセマンティクスを効果的にキャプチャする必要があります。
この論文では、CT-GLIP(CTスキャンによるグラウンデッド言語画像事前トレーニング)を紹介します。これは、器官レベルの画像とテキストのペアを構築して、マルチモーダルな対比学習を強化し、根拠のある視覚的特徴を正確な診断テキストと一致させる新しい方法です。
さらに、さまざまなネガティブサンプルを使用して対照学習を強化するための異常辞書を開発しました。
104 臓器にわたる 17,702 人の患者からの 44,011 臓器レベルのビジョンとテキストのペアで構成されるマルチモーダル CT データセットでトレーニングされた私たちの方法は、自然言語を使用して臓器と異常をゼロショットで識別できることを示しています。
CT-GLIP のパフォーマンスは、7 つの臓器にわたって最も頻繁に見られる 16 個の異常に焦点を当て、1,130 人の患者からなる別のテストセットで検証されています。
実験結果は、CNN と ViT アーキテクチャの両方を使用した、ゼロショットおよび微調整シナリオ全体にわたって、標準の CLIP フレームワークよりも優れたモデルのパフォーマンスを示しています。
要約(オリジナル)
Medical Vision-Language Pretraining (Med-VLP) establishes a connection between visual content from medical images and the relevant textual descriptions. Existing Med-VLP methods primarily focus on 2D images depicting a single body part, notably chest X-rays. In this paper, we extend the scope of Med-VLP to encompass 3D images, specifically targeting full-body scenarios, by using a multimodal dataset of CT images and reports. Compared with the 2D counterpart, 3D VLP is required to effectively capture essential semantics from significantly sparser representation in 3D imaging. In this paper, we introduce CT-GLIP (Grounded Language-Image Pretraining with CT scans), a novel method that constructs organ-level image-text pairs to enhance multimodal contrastive learning, aligning grounded visual features with precise diagnostic text. Additionally, we developed an abnormality dictionary to augment contrastive learning with diverse negative samples. Our method, trained on a multimodal CT dataset comprising 44,011 organ-level vision-text pairs from 17,702 patients across 104 organs, demonstrates it can identify organs and abnormalities in a zero-shot manner using natural languages. The performance of CT-GLIP is validated on a separate test set of 1,130 patients, focusing on the 16 most frequent abnormalities across 7 organs. The experimental results show our model’s superior performance over the standard CLIP framework across zero-shot and fine-tuning scenarios, using both CNN and ViT architectures.
arxiv情報
| 著者 | Jingyang Lin,Yingda Xia,Jianpeng Zhang,Ke Yan,Le Lu,Jiebo Luo,Ling Zhang | 
| 発行日 | 2024-04-23 17:59:01+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
提供元, 利用サービス
arxiv.jp, Google
