CAMS: Convolution and Attention-Free Mamba-based Cardiac Image Segmentation

要約

畳み込みニューラル ネットワーク (CNN) とトランスフォーマー ベースのセルフ アテンション モデルは、医療画像セグメンテーションの標準となっています。
この論文は、畳み込みと自己注意が広く使用されているものの、セグメンテーションに効果的な唯一の方法ではないことを示しています。
慣例を打ち破り、CAMS-Net という名前の畳み込みおよびセルフアテンションフリーの Mamba ベースのセマンティック セグメンテーション ネットワークを紹介します。
具体的には、Mamba ベースの Channel Aggregator と Spatial Aggregator を設計し、各エンコーダ/デコーダ段階で独立して適用します。
Channel Aggregator はさまざまなチャネルにわたって情報を抽出し、Spatial Aggregator はさまざまな空間的位置にわたる特徴を学習します。
また、2 つの因数分解された Mamba ブロック間に非線形性を導入することで、Mamba ブロックの計算の複雑さを軽減し、その決定機能を強化する Linearly Interconnected Factorized Mamba (LIFM) ブロックも提案します。
私たちのモデルは、CMR および M&Ms-2 心臓セグメンテーション データセットに対する既存の最先端の CNN、セルフ アテンション、および Mamba ベースの手法を上回っており、この革新的な畳み込みセルフ アテンション フリーの手法がどのようにさらなる刺激を与えることができるかを示しています。
CNN や Transformer のパラダイムを超えた研究を行い、線形の複雑さを実現し、パラメーターの数を削減します。
ソース コードと事前トレーニングされたモデルは、承認され次第公開されます。

要約(オリジナル)

Convolutional Neural Networks (CNNs) and Transformer-based self-attention models have become the standard for medical image segmentation. This paper demonstrates that convolution and self-attention, while widely used, are not the only effective methods for segmentation. Breaking with convention, we present a Convolution and self-Attention-free Mamba-based semantic Segmentation Network named CAMS-Net. Specifically, we design Mamba-based Channel Aggregator and Spatial Aggregator, which are applied independently in each encoder-decoder stage. The Channel Aggregator extracts information across different channels, and the Spatial Aggregator learns features across different spatial locations. We also propose a Linearly Interconnected Factorized Mamba (LIFM) block to reduce the computational complexity of a Mamba block and to enhance its decision function by introducing a non-linearity between two factorized Mamba blocks. Our model outperforms the existing state-of-the-art CNN, self-attention, and Mamba-based methods on CMR and M&Ms-2 Cardiac segmentation datasets, showing how this innovative, convolution, and self-attention-free method can inspire further research beyond CNN and Transformer paradigms, achieving linear complexity and reducing the number of parameters. Source code and pre-trained models will be publicly available upon acceptance.

arxiv情報

著者 Abbas Khan,Muhammad Asad,Martin Benning,Caroline Roney,Gregory Slabaugh
発行日 2024-09-10 17:12:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク