I2I-Mamba: Multi-modal medical image synthesis via selective state space modeling

要約

近年、トランスフォーマーコンポーネントで構成される深層学習モデルにより、医療画像合成タスクのパフォーマンス限界が押し上げられています。
静的なローカル フィルターを使用する畳み込みニューラル ネットワーク (CNN) とは対照的に、トランスフォーマーはセルフ アテンション メカニズムを使用して、適応性のある非ローカル フィルター処理を可能にし、長距離のコンテキストを敏感にキャプチャします。
ただし、この感度はモデルの大幅な複雑性を犠牲にして実現されており、特に比較的小規模な画像データセットでは学習効率が損なわれる可能性があります。
ここでは、選択的状態空間モデリング (SSM) を活用して、局所的な精度を維持しながら長距離のコンテキストを効率的にキャプチャする、マルチモーダル医用画像合成のための新しい敵対的モデル I2I-Mamba を提案します。
これを行うために、I2I-Mamba は畳み込みバックボーンのボトルネックにチャネル混合 Mamba (cmMamba) ブロックを挿入します。
cmMamba ブロックでは、SSM レイヤーは空間次元全体のコンテキストを学習するために使用され、チャネルミキシング層は特徴マップのチャネル次元全体のコンテキストを学習するために使用されます。
マルチコントラスト MRI および MRI-CT プロトコルで欠落した画像を補完するための包括的なデモンストレーションが報告されています。
私たちの結果は、ターゲットモダリティ画像の合成において、I2I-Mamba が最先端の CNN およびトランスフォーマーベースの方法に対して優れたパフォーマンスを提供することを示しています。

要約(オリジナル)

In recent years, deep learning models comprising transformer components have pushed the performance envelope in medical image synthesis tasks. Contrary to convolutional neural networks (CNNs) that use static, local filters, transformers use self-attention mechanisms to permit adaptive, non-local filtering to sensitively capture long-range context. However, this sensitivity comes at the expense of substantial model complexity, which can compromise learning efficacy particularly on relatively modest-sized imaging datasets. Here, we propose a novel adversarial model for multi-modal medical image synthesis, I2I-Mamba, that leverages selective state space modeling (SSM) to efficiently capture long-range context while maintaining local precision. To do this, I2I-Mamba injects channel-mixed Mamba (cmMamba) blocks in the bottleneck of a convolutional backbone. In cmMamba blocks, SSM layers are used to learn context across the spatial dimension and channel-mixing layers are used to learn context across the channel dimension of feature maps. Comprehensive demonstrations are reported for imputing missing images in multi-contrast MRI and MRI-CT protocols. Our results indicate that I2I-Mamba offers superior performance against state-of-the-art CNN- and transformer-based methods in synthesizing target-modality images.

arxiv情報

著者 Omer F. Atli,Bilal Kabas,Fuat Arslan,Mahmut Yurt,Onat Dalmaz,Tolga Çukur
発行日 2024-11-14 18:44:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク