xLSTM-UNet can be an Effective 2D & 3D Medical Image Segmentation Backbone with Vision-LSTM (ViL) better than its Mamba Counterpart

要約

畳み込みニューラル ネットワーク (CNN) とビジョン トランスフォーマー (ViT) は生物医学画像のセグメンテーションにおいて極めて重要ですが、長距離の依存関係を管理する能力は依然として固有の局所性と計算オーバーヘッドによって制約されています。
これらの課題を克服するために、この技術レポートではまず、医用画像セグメンテーションのバックボーンとして Vision-LSTM (xLSTM) を活用する UNet 構造化深層学習ニューラル ネットワークである xLSTM-UNet を提案します。
xLSTM は、Long Short-Term Memory (LSTM) ネットワークの後継として最近提案されており、神経言語処理 (NLP) や画像分類において、トランスフォーマーや Mamba などの状態空間モデル (SSM) と比較して優れたパフォーマンスを実証しています (Vision で実証されているように)
-LSTM、または ViL 実装)。
ここで、私たちが設計した xLSTM-UNet は、生物医学画像セグメンテーション領域での成功を拡張します。
畳み込み層の局所特徴抽出の強みと xLSTM の長距離依存関係キャプチャ機能を統合することにより、xLSTM-UNet は包括的な画像解析のための堅牢なソリューションを提供します。
xLSTM-UNet の有効性を実験によって検証します。
私たちの調査結果は、腹部 MRI 内の臓器、内視鏡画像内の機器、顕微鏡画像内の細胞などの生物医学セグメンテーションにおける複数のデータセットにおいて、xLSTM-UNet が主要な CNN ベース、Transformer ベース、および Mamba ベースのセグメンテーション ネットワークのパフォーマンスを常に上回っていることを示しています。
この技術レポートでは、包括的な実験を実施し、2D と 3D の両方で生物医学画像解析を進歩させる際の xLSTM ベースのアーキテクチャの可能性を強調しています。
コード、モデル、データセットは http://tianrun-chen.github.io/xLSTM-UNet/ で公開されています。

要約(オリジナル)

Convolutional Neural Networks (CNNs) and Vision Transformers (ViT) have been pivotal in biomedical image segmentation, yet their ability to manage long-range dependencies remains constrained by inherent locality and computational overhead. To overcome these challenges, in this technical report, we first propose xLSTM-UNet, a UNet structured deep learning neural network that leverages Vision-LSTM (xLSTM) as its backbone for medical image segmentation. xLSTM is a recently proposed as the successor of Long Short-Term Memory (LSTM) networks and have demonstrated superior performance compared to Transformers and State Space Models (SSMs) like Mamba in Neural Language Processing (NLP) and image classification (as demonstrated in Vision-LSTM, or ViL implementation). Here, xLSTM-UNet we designed extend the success in biomedical image segmentation domain. By integrating the local feature extraction strengths of convolutional layers with the long-range dependency capturing abilities of xLSTM, xLSTM-UNet offers a robust solution for comprehensive image analysis. We validate the efficacy of xLSTM-UNet through experiments. Our findings demonstrate that xLSTM-UNet consistently surpasses the performance of leading CNN-based, Transformer-based, and Mamba-based segmentation networks in multiple datasets in biomedical segmentation including organs in abdomen MRI, instruments in endoscopic images, and cells in microscopic images. With comprehensive experiments performed, this technical report highlights the potential of xLSTM-based architectures in advancing biomedical image analysis in both 2D and 3D. The code, models, and datasets are publicly available at http://tianrun-chen.github.io/xLSTM-UNet/

arxiv情報

著者 Tianrun Chen,Chaotao Ding,Lanyun Zhu,Tao Xu,Deyi Ji,Yan Wang,Ying Zang,Zejian Li
発行日 2024-07-02 15:45:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク