CLISC: Bridging clip and sam by enhanced cam for unsupervised brain tumor segmentation

要約

脳腫瘍のセグメンテーションは腫瘍の診断に重要であり、現在の深部学習方法は、注釈コストが高いトレーニング用の注釈付き画像の大規模なセットに依存しています。
監視されていないセグメンテーションは、パフォーマンスがしばしば限られている一方で、人間の注釈を避けることを約束しています。
この研究では、基礎モデルの機能を活用する監視されていない新しいセグメンテーションアプローチを提示し、3つの主要なステップで構成されています。
分類ネットワークをトレーニングするため。
次に、クラスアクティベーションマッピング(CAM)を使用して、対象領域(ROI)を抽出します。この領域(ROI)では、適応マスキングベースのデータ増強を使用してROIの識別を強化します。(2)ROIを使用して、セグメントの境界ボックスとポイントプロンプトを生成する
セグメンテーション疑似ラベルを取得するためのあらゆるモデル(SAM)。
(3)3Dセグメンテーションネットワークは、SAM由来の擬似ラベルでトレーニングされます。ここでは、SAMの出力とネットワークの予測との類似性に基づいて、自己学習プロセスで低品質の擬似適応が除外されます。
Brats2020データセットの評価は、私たちのアプローチが85.60%の平均サイコロ類似性スコア(DSC)を取得し、5つの最先端の監視なしのセグメンテーション方法を10パーセントポイント以上上回ったことを示しています。
その上、私たちのアプローチは、SAMを使用してゼロショットの推論を使用して直接アウトパフォームし、そのパフォーマンスは完全に監視された学習に近づいています。

要約(オリジナル)

Brain tumor segmentation is important for diagnosis of the tumor, and current deep-learning methods rely on a large set of annotated images for training, with high annotation costs. Unsupervised segmentation is promising to avoid human annotations while the performance is often limited. In this study, we present a novel unsupervised segmentation approach that leverages the capabilities of foundation models, and it consists of three main steps: (1) A vision-language model (i.e., CLIP) is employed to obtain image-level pseudo-labels for training a classification network. Class Activation Mapping (CAM) is then employed to extract Regions of Interest (ROIs), where an adaptive masking-based data augmentation is used to enhance ROI identification.(2) The ROIs are used to generate bounding box and point prompts for the Segment Anything Model (SAM) to obtain segmentation pseudo-labels. (3) A 3D segmentation network is trained with the SAM-derived pseudo-labels, where low-quality pseudo-labels are filtered out in a self-learning process based on the similarity between the SAM’s output and the network’s prediction. Evaluation on the BraTS2020 dataset demonstrates that our approach obtained an average Dice Similarity Score (DSC) of 85.60%, outperforming five state-of-the-art unsupervised segmentation methods by more than 10 percentage points. Besides, our approach outperforms directly using SAM for zero-shot inference, and its performance is close to fully supervised learning.

arxiv情報

著者 Xiaochuan Ma,Jia Fu,Wenjun Liao,Shichuan Zhang,Guotai Wang
発行日 2025-01-27 17:43:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク