要約
状態空間モデル (SSM) である Mamba は、最近、自然言語処理および一般的なシーケンス モデリングにおいて、畳み込みニューラル ネットワーク (CNN) およびトランスフォーマーに匹敵するパフォーマンスを示しました。
Mamba を医療画像セグメンテーション (MIS) などのコンピューター ビジョン タスクに適応させるために、さまざまな試みが行われてきました。
Vision Mamba (VM) ベースのネットワークは、トークン数の線形複雑性を維持しながら、ビジョン トランスフォーマーと同様にグローバルな受容フィールドを実現できるため、特に魅力的です。
ただし、既存の VM モデルは、その逐次的な性質により、高次元配列内のトークンの空間的ローカル依存性とグローバル依存性の両方を維持するのに依然として苦労しています。
複数のおよび/または複雑なスキャン戦略を採用すると計算コストが高くつくため、MIS 問題でよく見られる高次元の 2D および 3D 画像への SSM の適用が妨げられます。
この研究では、空間的に隣接するトークンがチャネル軸上の近くに留まるように明示的に強制し、圧縮された形式でグローバル コンテキストを保持するローカル-グローバル ビジョン マンバ、LoG-VMamba を提案します。
私たちの方法では、単純なスキャン戦略のみを必要としながら、最後のトークンに到達する前でも SSM がローカルおよびグローバル コンテキストにアクセスできるようになります。
当社のセグメンテーション モデルは計算効率が高く、さまざまな 2D および 3D MIS タスクのセットにおいて CNN ベースと Transformers ベースのベースラインの両方を大幅に上回ります。
LoG-VMamba の実装は \url{https://github.com/Oulu-IMEDS/LoG-VMamba} で入手できます。
要約(オリジナル)
Mamba, a State Space Model (SSM), has recently shown competitive performance to Convolutional Neural Networks (CNNs) and Transformers in Natural Language Processing and general sequence modeling. Various attempts have been made to adapt Mamba to Computer Vision tasks, including medical image segmentation (MIS). Vision Mamba (VM)-based networks are particularly attractive due to their ability to achieve global receptive fields, similar to Vision Transformers, while also maintaining linear complexity in the number of tokens. However, the existing VM models still struggle to maintain both spatially local and global dependencies of tokens in high dimensional arrays due to their sequential nature. Employing multiple and/or complicated scanning strategies is computationally costly, which hinders applications of SSMs to high-dimensional 2D and 3D images that are common in MIS problems. In this work, we propose Local-Global Vision Mamba, LoG-VMamba, that explicitly enforces spatially adjacent tokens to remain nearby on the channel axis, and retains the global context in a compressed form. Our method allows the SSMs to access the local and global contexts even before reaching the last token while requiring only a simple scanning strategy. Our segmentation models are computationally efficient and substantially outperform both CNN and Transformers-based baselines on a diverse set of 2D and 3D MIS tasks. The implementation of LoG-VMamba is available at \url{https://github.com/Oulu-IMEDS/LoG-VMamba}.
arxiv情報
著者 | Trung Dinh Quoc Dang,Huy Hoang Nguyen,Aleksei Tiulpin |
発行日 | 2024-08-26 17:02:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google