要約
医療画像セグメンテーションの領域では、CNN ベースのモデルと Transformer ベースのモデルの両方が広範囲に調査されています。
ただし、CNN は長距離モデリング機能に限界があるのに対し、Transformer は二次計算の複雑さによって妨げられます。
最近、Mamba に代表される状態空間モデル (SSM) が有望なアプローチとして浮上しています。
これらは、長距離相互作用のモデル化に優れているだけでなく、線形の計算複雑性も維持します。
この論文では、状態空間モデルを活用して、Vision Mamba UNet (VM-UNet) という名前の医用画像セグメンテーション用の U 字型アーキテクチャ モデルを提案します。
具体的には、広範なコンテキスト情報を取得するための基礎ブロックとして Visual State Space (VSS) ブロックが導入され、計算コストを節約するためにより少ない畳み込み層で非対称エンコーダー/デコーダー構造が構築されます。
私たちは ISIC17、ISIC18、および Synapse データセットに対して包括的な実験を実施しました。その結果、VM-UNet が医療画像セグメンテーション タスクにおいて競合的に機能することが示されました。
私たちの知る限り、これは純粋な SSM ベースのモデルに基づいて構築された最初の医療画像セグメンテーション モデルです。
私たちは、ベースラインを確立し、より効率的かつ効果的な SSM ベースのセグメンテーション システムの将来の開発に貴重な洞察を提供することを目指しています。
私たちのコードは https://github.com/JCruan519/VM-UNet で入手できます。
要約(オリジナル)
In the realm of medical image segmentation, both CNN-based and Transformer-based models have been extensively explored. However, CNNs exhibit limitations in long-range modeling capabilities, whereas Transformers are hampered by their quadratic computational complexity. Recently, State Space Models (SSMs), exemplified by Mamba, have emerged as a promising approach. They not only excel in modeling long-range interactions but also maintain a linear computational complexity. In this paper, leveraging state space models, we propose a U-shape architecture model for medical image segmentation, named Vision Mamba UNet (VM-UNet). Specifically, the Visual State Space (VSS) block is introduced as the foundation block to capture extensive contextual information, and an asymmetrical encoder-decoder structure is constructed with fewer convolution layers to save calculation cost. We conduct comprehensive experiments on the ISIC17, ISIC18, and Synapse datasets, and the results indicate that VM-UNet performs competitively in medical image segmentation tasks. To our best knowledge, this is the first medical image segmentation model constructed based on the pure SSM-based model. We aim to establish a baseline and provide valuable insights for the future development of more efficient and effective SSM-based segmentation systems. Our code is available at https://github.com/JCruan519/VM-UNet.
arxiv情報
著者 | Jiacheng Ruan,Jincheng Li,Suncheng Xiang |
発行日 | 2024-11-08 11:56:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google