Vivim: a Video Vision Mamba for Medical Video Object Segmentation


従来の畳み込みニューラル ネットワークの受容野は限られていますが、トランスフォーマー ベースのネットワークは、計算の複雑さの観点から長期的な依存関係を構築するのが平凡です。
このようなボトルネックは、ビデオ分析タスクで長いビデオ シーケンスを処理するときに重大な課題を引き起こします。
つい最近、Mamba で有名な、効率的なハードウェアを意識した設計を備えた状態空間モデル (SSM) が、ロング シーケンス モデリングで目覚ましい成果を示し、多くの視覚タスクでのディープ ニューラル ネットワークの開発を促進しました。
ビデオ フレーム内の利用可能なキューをより適切にキャプチャするために、この論文では、Vivim という名前の医療ビデオ オブジェクト セグメンテーション タスク用の汎用 Video Vision Mamba ベースのフレームワークを紹介します。
当社の Vivim は、設計された Temporal Mamba ブロックにより、長期の時空間表現をさまざまなスケールのシーケンスに効果的に圧縮できます。
既存のビデオ レベルの Transformer ベースの方法と比較して、私たちのモデルは、より優れた速度パフォーマンスで優れたセグメンテーション結果を維持します。
米国の乳房データセットに関する広範な実験により、Vivim の有効性と効率性が実証されました。
Vivim のコードは から入手できます。


Traditional convolutional neural networks have a limited receptive field while transformer-based networks are mediocre in constructing long-term dependency from the perspective of computational complexity. Such the bottleneck poses a significant challenge when processing long video sequences in video analysis tasks. Very recently, the state space models (SSMs) with efficient hardware-aware designs, famous by Mamba, have exhibited impressive achievements in long sequence modeling, which facilitates the development of deep neural networks on many vision tasks. To better capture available cues in video frames, this paper presents a generic Video Vision Mamba-based framework for medical video object segmentation tasks, named Vivim. Our Vivim can effectively compress the long-term spatiotemporal representation into sequences at varying scales by our designed Temporal Mamba Block. Compared to existing video-level Transformer-based methods, our model maintains excellent segmentation results with better speed performance. Extensive experiments on the breast US dataset demonstrate the effectiveness and efficiency of our Vivim. The code for Vivim is available at:


著者 Yijun Yang,Zhaohu Xing,Lei Zhu
発行日 2024-01-25 13:27:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CV パーマリンク