Test-Time Adaptation with SaLIP: A Cascade of SAM and CLIP for Zero shot Medical Image Segmentation

要約

Segment Anything Model (SAM) と CLIP は、優れたビジョン基盤モデル (VFM) です。
SAM はプロンプト主導のセグメンテーション モデルであり、さまざまなドメインにわたるセグメンテーション タスクに優れていますが、CLIP はゼロショット認識機能で有名です。
ただし、それらの統合された可能性は、医療画像セグメンテーションではまだ研究されていません。
SAM を医用画像に適応させるために、既存の方法は主に調整戦略に依存しており、大量のデータや特定のタスクに合わせた事前のプロンプトが必要となるため、限られた数のデータ サンプルしか利用できない場合は特に困難になります。
この研究では、SAM と CLIP を医療画像セグメンテーション用の統一フレームワークに統合することについての詳細な調査を示します。
具体的には、臓器セグメンテーションのためのシンプルな統一フレームワーク SaLIP を提案します。
最初に、SAM を使用して画像内のパーツベースのセグメンテーションを行い、続いて CLIP を使用して、SAM で生成されたマスクのプールから関心領域 (ROI) に対応するマスクを取得します。
最後に、SAM は、取得した ROI によって特定の臓器をセグメント化するように促されます。
したがって、SaLIP はトレーニングと微調整が無料であり、迅速なエンジニアリングのためにドメインの専門知識やラベル付けされたデータに依存しません。
私たちの方法では、ゼロショットセグメンテーションが大幅に強化されており、プロンプトなしの SAM と比較した場合、脳 (63.46%)、肺 (50.11%)、児頭 (30.82%) などの多様なセグメンテーション タスク全体で DICE スコアが顕著に向上しています。
コードとテキストのプロンプトはオンラインで利用可能になります。

要約(オリジナル)

The Segment Anything Model (SAM) and CLIP are remarkable vision foundation models (VFMs). SAM, a prompt driven segmentation model, excels in segmentation tasks across diverse domains, while CLIP is renowned for its zero shot recognition capabilities. However, their unified potential has not yet been explored in medical image segmentation. To adapt SAM to medical imaging, existing methods primarily rely on tuning strategies that require extensive data or prior prompts tailored to the specific task, making it particularly challenging when only a limited number of data samples are available. This work presents an in depth exploration of integrating SAM and CLIP into a unified framework for medical image segmentation. Specifically, we propose a simple unified framework, SaLIP, for organ segmentation. Initially, SAM is used for part based segmentation within the image, followed by CLIP to retrieve the mask corresponding to the region of interest (ROI) from the pool of SAM generated masks. Finally, SAM is prompted by the retrieved ROI to segment a specific organ. Thus, SaLIP is training and fine tuning free and does not rely on domain expertise or labeled data for prompt engineering. Our method shows substantial enhancements in zero shot segmentation, showcasing notable improvements in DICE scores across diverse segmentation tasks like brain (63.46%), lung (50.11%), and fetal head (30.82%), when compared to un prompted SAM. Code and text prompts will be available online.

arxiv情報

著者 Sidra Aleem,Fangyijie Wang,Mayug Maniparambil,Eric Arazo,Julia Dietlmeier,Kathleen Curran,Noel E. O’Connor,Suzanne Little
発行日 2024-04-09 14:56:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク