Vivim: a Video Vision Mamba for Medical Video Segmentation

要約

医療ビデオのセグメンテーションは、ビデオ フレーム内の動的参照が冗長であるため、臨床現場でますます注目を集めています。
ただし、従来の畳み込みニューラル ネットワークの受容野は限られており、トランスフォーマー ベースのネットワークは、計算の複雑さの観点から長期的な依存関係を構築するのが平凡です。
このボトルネックは、メモリが限られている利用可能なデバイスを使用して医療ビデオ分析タスクで長いシーケンスを処理する場合に、重大な課題を引き起こします。
最近、Mamba で有名な状態空間モデル (SSM) は、多くの視覚タスクの受容野を大幅に拡張することでディープ ニューラル ネットワークを開発する、効率的なロングシーケンス モデリングにおいて目覚ましい成果を示しました。
残念ながら、バニラ SSM は、因果関係のある時間的手がかりを捕捉することと、非カジュアルな空間情報を保存することを同時に行うことができませんでした。
この目的を達成するために、この文書では、医療ビデオ セグメンテーション タスク用の、Vivim と呼ばれる Video Vision Mamba ベースのフレームワークを紹介します。
当社の Vivim は、設計された Temporal Mamba ブロックを使用して、長期の時空間表現をさまざまなスケールのシーケンスに効果的に圧縮できます。
また、あいまいな病変に対する Vivim の識別能力を強化するために、フレーム全体にわたる改善された境界認識アフィン制約も導入します。
甲状腺のセグメンテーション、超音波ビデオでの乳房病変のセグメンテーション、結腸内視鏡ビデオでのポリープのセグメンテーションに関する広範な実験により、既存の方法よりも優れた Vivim の有効性と効率性が実証されています。
コードは https://github.com/scott-yjyang/Vivim から入手できます。
データセットは承認されると公開されます。

要約(オリジナル)

Medical video segmentation gains increasing attention in clinical practice due to the redundant dynamic references in video frames. However, traditional convolutional neural networks have a limited receptive field and transformer-based networks are mediocre in constructing long-term dependency from the perspective of computational complexity. This bottleneck poses a significant challenge when processing longer sequences in medical video analysis tasks using available devices with limited memory. Recently, state space models (SSMs), famous by Mamba, have exhibited impressive achievements in efficient long sequence modeling, which develops deep neural networks by expanding the receptive field on many vision tasks significantly. Unfortunately, vanilla SSMs failed to simultaneously capture causal temporal cues and preserve non-casual spatial information. To this end, this paper presents a Video Vision Mamba-based framework, dubbed as Vivim, for medical video segmentation tasks. Our Vivim can effectively compress the long-term spatiotemporal representation into sequences at varying scales with our designed Temporal Mamba Block. We also introduce an improved boundary-aware affine constraint across frames to enhance the discriminative ability of Vivim on ambiguous lesions. Extensive experiments on thyroid segmentation, breast lesion segmentation in ultrasound videos, and polyp segmentation in colonoscopy videos demonstrate the effectiveness and efficiency of our Vivim, superior to existing methods. The code is available at: https://github.com/scott-yjyang/Vivim. The dataset will be released once accepted.

arxiv情報

著者 Yijun Yang,Zhaohu Xing,Lequan Yu,Chunwang Huang,Huazhu Fu,Lei Zhu
発行日 2024-08-01 15:56:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク