Mamba-UNet: UNet-Like Pure Visual Mamba for Medical Image Segmentation

要約

医療画像解析の最近の進歩では、畳み込みニューラル ネットワーク (CNN) とビジョン トランスフォーマー (ViT) が重要なベンチマークを設定しました。
前者は畳み込み演算を通じて局所的な特徴を捕捉することに優れていますが、後者は自己注意メカニズムを活用することで優れたグローバル コンテキストの理解を実現します。
ただし、どちらのアーキテクチャも、医療画像内の長距離依存関係を効率的にモデル化するには限界があり、これは正確なセグメンテーションにとって重要な側面です。
状態空間モデル (SSM) としての計算効率が向上し、長いシーケンスとグローバルなコンテキスト情報を処理する能力に優れていることで知られる Mamba アーキテクチャからインスピレーションを得て、医療画像セグメンテーションにおいて U-Net を相乗させる新しいアーキテクチャである Mamba-UNet を提案します。
マンバの能力を使って。
Mamba-UNet は、純粋な Visual Mamba (VMamba) ベースのエンコーダー/デコーダー構造を採用しており、さまざまなスケールのネットワークにわたって空間情報を保持するためのスキップ接続が組み込まれています。
この設計により、包括的な特徴学習プロセスが促進され、医療画像内の複雑な詳細とより広範な意味論的コンテキストがキャプチャされます。
VMamba ブロック内に新しい統合メカニズムを導入して、エンコーダー パスとデコーダー パス間のシームレスな接続と情報フローを確保し、セグメンテーションのパフォーマンスを向上させます。
私たちは、公開されている MRI 心臓多構造セグメンテーション データセットを使用して実験を実施しました。
結果は、同じハイパーパラメータ設定の下で、Mamba-UNet が医用画像セグメンテーションにおいて UNet、Swin-UNet よりも優れていることを示しています。
ソース コードとベースライン実装が利用可能です。

要約(オリジナル)

In recent advancements in medical image analysis, Convolutional Neural Networks (CNN) and Vision Transformers (ViT) have set significant benchmarks. While the former excels in capturing local features through its convolution operations, the latter achieves remarkable global context understanding by leveraging self-attention mechanisms. However, both architectures exhibit limitations in efficiently modeling long-range dependencies within medical images, which is a critical aspect for precise segmentation. Inspired by the Mamba architecture, known for its proficiency in handling long sequences and global contextual information with enhanced computational efficiency as a State Space Model (SSM), we propose Mamba-UNet, a novel architecture that synergizes the U-Net in medical image segmentation with Mamba’s capability. Mamba-UNet adopts a pure Visual Mamba (VMamba)-based encoder-decoder structure, infused with skip connections to preserve spatial information across different scales of the network. This design facilitates a comprehensive feature learning process, capturing intricate details and broader semantic contexts within medical images. We introduce a novel integration mechanism within the VMamba blocks to ensure seamless connectivity and information flow between the encoder and decoder paths, enhancing the segmentation performance. We conducted experiments on publicly available MRI cardiac multi-structures segmentation dataset. The results show that Mamba-UNet outperforms UNet, Swin-UNet in medical image segmentation under the same hyper-parameter setting. The source code and baseline implementations are available.

arxiv情報

著者 Ziyang Wang,Jian-Qing Zheng,Yichi Zhang,Ge Cui,Lei Li
発行日 2024-02-07 18:33:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク