要約
最近、州の宇宙モデルMAMBAは、特に3D医療イメージングにおける長シーケンスの視覚タスクに対処するために、効率的な長いシーケンスモデリング機能を実証しています。
ただし、既存の生成的自己監視学習方法では、マスクモデリングにおける状態空間シーケンスの固有の因果特性を見落としているため、長距離依存関係を処理するMambaの可能性はまだ完全には解明されていません。
この課題に対処するために、Mambamimと呼ばれる汎用の事前トレーニングフレームワークを提案します。これは、マスクされたシーケンス内の状態空間の因果関係を学習する選択的構造状態空間シーケンスの新しいトークン挿入戦略(TOKI)に基づいたマスクされた画像モデリング方法です。
さらに、Mambamimは、さまざまなアーキテクチャ全体でマスキングの一貫性を維持するためのボトムアップ3Dハイブリッドマスキング戦略を導入し、単一またはハイブリッドのMambaアーキテクチャで使用して、マルチスケールおよび長距離表現機能を強化することができます。
6.8k CTスキャンの大規模なデータセットでマンバミムを事前に訓練し、8つの公共の医療セグメンテーションベンチマークでそのパフォーマンスを評価します。
広範な下流の実験により、医療イメージの事前トレーニングにMambaを使用することの実現可能性と進歩が明らかになりました。
特に、MedNextとVision Mambaをハイブリダイズするカスタマイズされたアーキテクチャにマンバミムを適用すると、最先端のセグメンテーションパフォーマンスを一貫して取得します。
このコードは、https://github.com/fenghetan9/mambamimで入手できます。
要約(オリジナル)
Recently, the state space model Mamba has demonstrated efficient long-sequence modeling capabilities, particularly for addressing long-sequence visual tasks in 3D medical imaging. However, existing generative self-supervised learning methods have not yet fully unleashed Mamba’s potential for handling long-range dependencies because they overlook the inherent causal properties of state space sequences in masked modeling. To address this challenge, we propose a general-purpose pre-training framework called MambaMIM, a masked image modeling method based on a novel TOKen-Interpolation strategy (TOKI) for the selective structure state space sequence, which learns causal relationships of state space within the masked sequence. Further, MambaMIM introduces a bottom-up 3D hybrid masking strategy to maintain a masking consistency across different architectures and can be used on any single or hybrid Mamba architecture to enhance its multi-scale and long-range representation capability. We pre-train MambaMIM on a large-scale dataset of 6.8K CT scans and evaluate its performance across eight public medical segmentation benchmarks. Extensive downstream experiments reveal the feasibility and advancement of using Mamba for medical image pre-training. In particular, when we apply the MambaMIM to a customized architecture that hybridizes MedNeXt and Vision Mamba, we consistently obtain the state-of-the-art segmentation performance. The code is available at: https://github.com/FengheTan9/MambaMIM.
arxiv情報
著者 | Fenghe Tang,Bingkun Nian,Yingtai Li,Zihang Jiang,Jie Yang,Wei Liu,S. Kevin Zhou |
発行日 | 2025-04-18 13:21:39+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google