MedCLIP-SAM: Bridging Text and Image Towards Universal Medical Image Segmentation

要約

解剖学的構造と病理の医療画像セグメンテーションは、現代の臨床診断、疾患研究、治療計画において重要です。
現在までに、深層学習ベースのセグメンテーション技術は大きく進歩しましたが、ほとんどの方法にはまだデータの効率性、一般化性、対話性が欠けています。
したがって、医療画像解析では、ラベル付けされたデータセットが少なくて済む、新しい正確なセグメンテーション手法の開発が最も重要です。
最近、CLIP や Segment-Anything-Model (SAM) など、包括的なクロスドメイン表現を備えた基盤モデルの出現により、インタラクティブでユニバーサルな画像セグメンテーションへの扉が開かれました。
ただし、データ効率の高い医療画像セグメンテーションのためのこれらのモデルの探索はまだ限られていますが、非常に必要です。
この論文では、CLIP モデルと SAM モデルを組み合わせて、ゼロショット設定と弱く監視された設定の両方でテキスト プロンプトを使用して臨床スキャンのセグメンテーションを生成する、MedCLIP-SAM と呼ばれる新しいフレームワークを提案します。
これを達成するために、新しい分離ハード ネガティブ ノイズ対比推定 (DHN-NCE) 損失を採用して BiomedCLIP モデルを微調整し、最新の gScoreCAM を使用してゼロショット設定で SAM からセグメンテーション マスクを取得するためのプロンプトを生成しました。
さらに、セグメンテーションの品質をさらに向上させるために、弱教師パラダイムでのゼロショット セグメンテーション ラベルの使用を検討しました。
3 つの多様なセグメンテーション タスクと医療画像モダリティ (乳房腫瘍超音波、脳腫瘍 MRI、肺 X 線) を広範囲にテストすることにより、私たちが提案したフレームワークは優れた精度を実証しました。

要約(オリジナル)

Medical image segmentation of anatomical structures and pathology is crucial in modern clinical diagnosis, disease study, and treatment planning. To date, great progress has been made in deep learning-based segmentation techniques, but most methods still lack data efficiency, generalizability, and interactability. Consequently, the development of new, precise segmentation methods that demand fewer labeled datasets is of utmost importance in medical image analysis. Recently, the emergence of foundation models, such as CLIP and Segment-Anything-Model (SAM), with comprehensive cross-domain representation opened the door for interactive and universal image segmentation. However, exploration of these models for data-efficient medical image segmentation is still limited, but is highly necessary. In this paper, we propose a novel framework, called MedCLIP-SAM that combines CLIP and SAM models to generate segmentation of clinical scans using text prompts in both zero-shot and weakly supervised settings. To achieve this, we employed a new Decoupled Hard Negative Noise Contrastive Estimation (DHN-NCE) loss to fine-tune the BiomedCLIP model and the recent gScoreCAM to generate prompts to obtain segmentation masks from SAM in a zero-shot setting. Additionally, we explored the use of zero-shot segmentation labels in a weakly supervised paradigm to improve the segmentation quality further. By extensively testing three diverse segmentation tasks and medical image modalities (breast tumor ultrasound, brain tumor MRI, and lung X-ray), our proposed framework has demonstrated excellent accuracy.

arxiv情報

著者 Taha Koleilat,Hojat Asgariandehkordi,Hassan Rivaz,Yiming Xiao
発行日 2024-03-29 15:59:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク