Weak-Mamba-UNet: Visual Mamba Makes CNN and ViT Work Better for Scribble-based Medical Image Segmentation

要約

医療画像のセグメンテーションはディープラーニング技術への依存度が高まっていますが、期待できるパフォーマンスには多くの場合、高いアノテーションコストが伴います。
このペーパーでは、畳み込みニューラル ネットワーク (CNN)、ビジョン トランスフォーマー (ViT)、医療向けの最先端の Visual Mamba (VMamba) アーキテクチャの機能を活用する革新的な弱教師あり学習 (WSL) フレームワークである Weak-Mamba-UNet について紹介します。
画像のセグメンテーション、特に落書きベースの注釈を扱う場合。
提案された WSL 戦略には、3 つの異なるアーキテクチャが組み込まれていますが、同じ対称エンコーダ/デコーダ ネットワークです。詳細なローカル特徴抽出のための CNN ベースの UNet、包括的なグローバル コンテキストの理解のための Swin Transformer ベースの SwinUNet、および効率的な長尺データ処理のための VMamba ベースの Mamba-UNet
-範囲依存関係モデリング。
このフレームワークの重要な概念は、擬似ラベルを使用してネットワーク全体での反復学習と改良を促進する、協調的で相互監視的なメカニズムです。
Weak-Mamba-UNet の有効性は、処理された落書き注釈を含む公開されている MRI 心臓セグメンテーション データセットで検証されており、UNet または SwinUNet のみを使用する同様の WSL フレームワークのパフォーマンスを上回っています。
これにより、注釈がまばらまたは不正確なシナリオでの可能性が強調されます。
ソースコードは一般に公開されています。

要約(オリジナル)

Medical image segmentation is increasingly reliant on deep learning techniques, yet the promising performance often come with high annotation costs. This paper introduces Weak-Mamba-UNet, an innovative weakly-supervised learning (WSL) framework that leverages the capabilities of Convolutional Neural Network (CNN), Vision Transformer (ViT), and the cutting-edge Visual Mamba (VMamba) architecture for medical image segmentation, especially when dealing with scribble-based annotations. The proposed WSL strategy incorporates three distinct architecture but same symmetrical encoder-decoder networks: a CNN-based UNet for detailed local feature extraction, a Swin Transformer-based SwinUNet for comprehensive global context understanding, and a VMamba-based Mamba-UNet for efficient long-range dependency modeling. The key concept of this framework is a collaborative and cross-supervisory mechanism that employs pseudo labels to facilitate iterative learning and refinement across the networks. The effectiveness of Weak-Mamba-UNet is validated on a publicly available MRI cardiac segmentation dataset with processed scribble annotations, where it surpasses the performance of a similar WSL framework utilizing only UNet or SwinUNet. This highlights its potential in scenarios with sparse or imprecise annotations. The source code is made publicly accessible.

arxiv情報

著者 Ziyang Wang,Chao Ma
発行日 2024-02-16 18:43:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク