要約
さまざまなモダリティにわたるディープ ニューラル ネットワークの普遍性と、目に見えない領域への一般化機能は、医療画像のセグメンテーションにおいて重要な役割を果たします。
最近のセグメント エニシング モデル (SAM) は、両方の設定でその可能性を実証しました。
ただし、SAM の膨大な計算コスト、プロンプトとしての手動アノテーションの要求、競合が発生しやすいデコード プロセスにより、臨床シナリオでの汎用性と適用性が低下します。
これらの問題に対処するために、我々は、ESP-MedSAM と呼ばれる、ユニバーサル ドメイン一般化医療画像セグメンテーションのための効率的な自己プロンプト型 SAM を提案します。
具体的には、まずマルチモーダル分離知識蒸留 (MMDKD) 戦略を考案し、多様なモダリティに対して識別可能な視覚特徴を生成する軽量のセミパラメーター共有画像エンコーダーを構築します。
さらに、セグメンテーション デコーディングをガイドするための高品質の高密度プロンプト エンベディングを自動的に生成する Self-Patch Prompt Generator (SPPG) を導入します。
最後に、1 対 1 戦略を利用してすべてのモダリティに独立したデコード チャネルを提供するクエリ分離モダリティ デコーダ (QDMD) を設計します。
広範な実験により、ESP-MedSAM はさまざまな医用画像セグメンテーション タスクにおいて最先端技術を上回っており、優れたモダリティの普遍性と一般化機能を示していることが示されています。
特に、ESP-MedSAM は、SAM-H と比較して 4.5\% のパラメーターのみを使用します。
ソース コードは https://github.com/xq141839/ESP-MedSAM で入手できます。
要約(オリジナル)
The universality of deep neural networks across different modalities and their generalization capabilities to unseen domains play an essential role in medical image segmentation. The recent Segment Anything Model (SAM) has demonstrated its potential in both settings. However, the huge computational costs, demand for manual annotations as prompts and conflict-prone decoding process of SAM degrade its generalizability and applicability in clinical scenarios. To address these issues, we propose an efficient self-prompting SAM for universal domain-generalized medical image segmentation, named ESP-MedSAM. Specifically, we first devise the Multi-Modal Decoupled Knowledge Distillation (MMDKD) strategy to construct a lightweight semi-parameter sharing image encoder that produces discriminative visual features for diverse modalities. Further, we introduce the Self-Patch Prompt Generator (SPPG) to automatically generate high-quality dense prompt embeddings for guiding segmentation decoding. Finally, we design the Query-Decoupled Modality Decoder (QDMD) that leverages a one-to-one strategy to provide an independent decoding channel for every modality. Extensive experiments indicate that ESP-MedSAM outperforms state-of-the-arts in diverse medical imaging segmentation tasks, displaying superior modality universality and generalization capabilities. Especially, ESP-MedSAM uses only 4.5\% parameters compared to SAM-H. The source code is available at https://github.com/xq141839/ESP-MedSAM.
arxiv情報
著者 | Qing Xu,Jiaxuan Li,Xiangjian He,Ziyu Liu,Zhen Chen,Wenting Duan,Chenxin Li,Maggie M. He,Fiseha B. Tesema,Wooi P. Cheah,Yi Wang,Rong Qu,Jonathan M. Garibaldi |
発行日 | 2024-08-08 16:20:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google