要約
Segment Anything Model (SAM) は、医療画像のセグメンテーションへの優れた適応を実証していますが、依然として 3 つの大きな課題に直面しています。
まず、SAM は膨大な計算コストがかかるため、現実世界への適用性が制限されます。
第二に、SAM はプロンプトとして手動の注釈 (ポイント、ボックスなど) に依存しますが、これは手間がかかり、臨床シナリオでは非現実的です。
第三に、SAM はすべてのセグメンテーション ターゲットを平等に処理しますが、これは固有の異質性を持つ多様な医療モダリティにとっては最適ではありません。
これらの問題に対処するために、私たちは ESP-MedSAM という汎用医療画像セグメンテーションのための効率的な自己プロンプト SAM を提案します。
私たちは、基礎モデルから一般的な画像知識と領域固有の医療知識を抽出して、軽量の画像エンコーダーとモダリティ コントローラーをトレーニングするマルチモーダル分離知識蒸留 (MMDKD) 戦略を考案しました。
さらに、追加で導入された Self-Patch Prompt Generator (SPPG) および Query-Decoupled Modality Decoder (QDMD) と組み合わせて ESP-MedSAM を構築します。
具体的には、SPPG は一連のパッチ プロンプトを自動的に生成することを目的としており、QDMD は 1 対 1 戦略を活用して、すべてのモダリティに独立したデコード チャネルを提供します。
広範な実験により、ESP-MedSAM は多様な医療画像セグメンテーション撮影において最先端技術を上回っており、優れたゼロショット学習およびモダリティ転送能力を示していることが示されています。
特に、私たちのフレームワークは、SAM-Base と比較して 31.4% のパラメーターのみを使用します。
要約(オリジナル)
The Segment Anything Model (SAM) has demonstrated outstanding adaptation to medical image segmentation but still faces three major challenges. Firstly, the huge computational costs of SAM limit its real-world applicability. Secondly, SAM depends on manual annotations (e.g., points, boxes) as prompts, which are laborious and impractical in clinical scenarios. Thirdly, SAM handles all segmentation targets equally, which is suboptimal for diverse medical modalities with inherent heterogeneity. To address these issues, we propose an Efficient Self-Prompting SAM for universal medical image segmentation, named ESP-MedSAM. We devise a Multi-Modal Decoupled Knowledge Distillation (MMDKD) strategy to distil common image knowledge and domain-specific medical knowledge from the foundation model to train a lightweight image encoder and a modality controller. Further, they combine with the additionally introduced Self-Patch Prompt Generator (SPPG) and Query-Decoupled Modality Decoder (QDMD) to construct ESP-MedSAM. Specifically, SPPG aims to generate a set of patch prompts automatically and QDMD leverages a one-to-one strategy to provide an independent decoding channel for every modality. Extensive experiments indicate that ESP-MedSAM outperforms state-of-the-arts in diverse medical imaging segmentation takes, displaying superior zero-shot learning and modality transfer ability. Especially, our framework uses only 31.4% parameters compared to SAM-Base.
arxiv情報
| 著者 | Qing Xu,Jiaxuan Li,Xiangjian He,Ziyu Liu,Zhen Chen,Wenting Duan,Chenxin Li,Maggie M. He,Fiseha B. Tesema,Wooi P. Cheah,Yi Wang,Rong Qu,Jonathan M. Garibaldi |
| 発行日 | 2024-08-07 17:04:53+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google