UniMed-CLIP: Towards a Unified Image-Text Pretraining Paradigm for Diverse Medical Imaging Modalities

要約

対照学習によってトレーニングされた視覚言語モデル (VLM) は、自然画像タスクで顕著な成功を収めています。
ただし、オープンにアクセスできる大規模な医療画像テキスト データセットが不足しているため、医療分野での応用は依然として限られています。
既存の医療 VLM は、クローズドソースの独自データセット、または一般化が不十分な比較的小規模なオープンソース データセットでトレーニングします。
同様に、ほとんどのモデルは単一または限られた数の医用画像領域に特化したままであり、やはり他のモダリティへの適用が制限されています。
このギャップに対処するために、X 線、CT、MRI、超音波、病理学、眼底の 6 つの多様な画像モダリティにわたる 530 万を超える画像とテキストのペアで構成される大規模なオープンソースのマルチモーダル医療データセットである UniMed を導入します。

UniMed は、大規模言語モデル (LLM) を活用してモダリティ固有の分類データセットを画像テキスト形式に変換するデータ収集フレームワークを使用して開発されていると同時に、医療分野の既存の画像テキスト データを組み込んで、スケーラブルな VLM の事前トレーニングを促進します。
UniMed を使用して、既存のジェネラリスト VLM を大幅に上回り、モダリティ固有の医療 VLM に匹敵する 6 つのモダリティ向けの統合 VLM である UniMed-CLIP をトレーニングし、ゼロショット評価で顕著な向上を達成しました。
たとえば、UniMed-CLIP は、使用するトレーニング データが 3 分の 1 でありながら、21 データセットの平均で +12.61 の絶対ゲインで (独自のデータでトレーニングされた) BiomedCLIP よりも向上しています。
将来の研究を促進するために、UniMed データセット、トレーニング コード、およびモデルを https://github.com/mbzuai-oryx/UniMed-CLIP でリリースします。

要約(オリジナル)

Vision-Language Models (VLMs) trained via contrastive learning have achieved notable success in natural image tasks. However, their application in the medical domain remains limited due to the scarcity of openly accessible, large-scale medical image-text datasets. Existing medical VLMs either train on closed-source proprietary or relatively small open-source datasets that do not generalize well. Similarly, most models remain specific to a single or limited number of medical imaging domains, again restricting their applicability to other modalities. To address this gap, we introduce UniMed, a large-scale, open-source multi-modal medical dataset comprising over 5.3 million image-text pairs across six diverse imaging modalities: X-ray, CT, MRI, Ultrasound, Pathology, and Fundus. UniMed is developed using a data-collection framework that leverages Large Language Models (LLMs) to transform modality-specific classification datasets into image-text formats while incorporating existing image-text data from the medical domain, facilitating scalable VLM pretraining. Using UniMed, we trained UniMed-CLIP, a unified VLM for six modalities that significantly outperforms existing generalist VLMs and matches modality-specific medical VLMs, achieving notable gains in zero-shot evaluations. For instance, UniMed-CLIP improves over BiomedCLIP (trained on proprietary data) by an absolute gain of +12.61, averaged over 21 datasets, while using 3x less training data. To facilitate future research, we release UniMed dataset, training codes, and models at https://github.com/mbzuai-oryx/UniMed-CLIP.

arxiv情報

著者 Muhammad Uzair Khattak,Shahina Kunhimon,Muzammal Naseer,Salman Khan,Fahad Shahbaz Khan
発行日 2024-12-13 18:59:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク