Swin-UMamba: Mamba-based UNet with ImageNet-based pretraining

要約

医療画像を正確にセグメンテーションするには、局所的な特徴からグローバルな依存関係に至るまで、マルチスケールの情報を統合する必要があります。
しかし、既存の手法では、長距離のグローバル情報をモデル化することが困難であり、畳み込みニューラル ネットワーク (CNN) は局所的な受容野によって制約され、ビジョン トランスフォーマー (ViT) は注意メカニズムの高度な二次複雑さに悩まされます。
最近、Mamba ベースのモデルは、ロング シーケンス モデリングにおける優れた能力により大きな注目を集めています。
いくつかの研究では、これらのモデルがさまざまなタスクにおいて一般的なビジョン モデルよりも優れたパフォーマンスを発揮し、より高い精度、より低いメモリ消費量、より少ない計算負荷を実現できることが実証されています。
ただし、既存の Mamba ベースのモデルはほとんどがゼロからトレーニングされており、データ効率の高い医療画像分析に非常に効果的であることが証明されている事前トレーニングの能力を検討していません。
この論文では、ImageNet ベースの事前トレーニングの利点を活用して、医療画像セグメンテーション タスク専用に設計された新しい Mamba ベースのモデル Swin-UMamba を紹介します。
私たちの実験結果は、Mamba ベースのモデルのパフォーマンス向上における ImageNet ベースのトレーニングの重要な役割を明らかにしています。
Swin-UMamba は、CNN、ViT、および最新の Mamba ベースのモデルと比較して、大きなマージンで優れたパフォーマンスを示します。
特に、腹部 MRI、内視鏡検査、顕微鏡検査のデータセットでは、Swin-UMamba が最も近い対応物である U-Mamba_Enc よりも平均スコア 2.72% 優れています。

要約(オリジナル)

Accurate medical image segmentation demands the integration of multi-scale information, spanning from local features to global dependencies. However, it is challenging for existing methods to model long-range global information, where convolutional neural networks (CNNs) are constrained by their local receptive fields, and vision transformers (ViTs) suffer from high quadratic complexity of their attention mechanism. Recently, Mamba-based models have gained great attention for their impressive ability in long sequence modeling. Several studies have demonstrated that these models can outperform popular vision models in various tasks, offering higher accuracy, lower memory consumption, and less computational burden. However, existing Mamba-based models are mostly trained from scratch and do not explore the power of pretraining, which has been proven to be quite effective for data-efficient medical image analysis. This paper introduces a novel Mamba-based model, Swin-UMamba, designed specifically for medical image segmentation tasks, leveraging the advantages of ImageNet-based pretraining. Our experimental results reveal the vital role of ImageNet-based training in enhancing the performance of Mamba-based models. Swin-UMamba demonstrates superior performance with a large margin compared to CNNs, ViTs, and latest Mamba-based models. Notably, on AbdomenMRI, Encoscopy, and Microscopy datasets, Swin-UMamba outperforms its closest counterpart U-Mamba_Enc by an average score of 2.72%.

arxiv情報

著者 Jiarun Liu,Hao Yang,Hong-Yu Zhou,Yan Xi,Lequan Yu,Yizhou Yu,Yong Liang,Guangming Shi,Shaoting Zhang,Hairong Zheng,Shanshan Wang
発行日 2024-03-06 13:29:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, eess.IV パーマリンク