I2I-Mamba: Multi-modal medical image synthesis via selective state space modeling

要約

マルチモーダルの医療画像合成には、ソースとターゲットモダリティの間の組織シグナルの非線形変換が含まれ、組織は多様な空間距離にわたって文脈的相互作用を示します。
そのため、合成におけるネットワークアーキテクチャの有用性は、これらのコンテキスト機能を表現する能力に依存します。
畳み込みニューラルネットワーク(CNNS)は、長距離コンテキストに対する感度が低いことを犠牲にして、高い局所精度を提供します。
トランスフォーマーはこの問題を軽減することを約束しますが、注意フィルターの固有の複雑さのために、長距離と短距離のコンテキストに対する感受性との間の不利なトレードオフに苦しんでいます。
複雑さ駆動型のトレードオフを避けながらコンテキスト機能を効果的にキャプチャするために、状態空間モデリング(SSM)フレームワークに基づいて、新しいマルチモーダル合成方法I2i-Mambaを紹介します。
ハイブリッドの残留アーキテクチャ全体のセマンティック表現に焦点を当て、I2I-MAMBAは、画像とフーリエドメインの相補的なコンテキストモデリングのための新しいデュアルドメインMAMBA(DDMAMBA)ブロックを活用し、畳み込み層で空間精度を維持します。
DDMAMBAは、従来のラスタースキャンの軌跡から迂回し、スパイラルスキャンの軌跡に基づいて新規SSM演算子を活用して、ラジアルカバレッジと角度等方性の強化とコンテキストを備えたコンテキスト、およびチャネル混合層を学習して、チャネル次元全体でコンテキストを集約します。
マルチトラストストMRIおよびMRI-CTプロトコルに関する包括的なデモンストレーションは、I2i-Mambaが最先端のCNN、トランス、SSMに対して優れたパフォーマンスを提供することを示しています。

要約(オリジナル)

Multi-modal medical image synthesis involves nonlinear transformation of tissue signals between source and target modalities, where tissues exhibit contextual interactions across diverse spatial distances. As such, the utility of a network architecture in synthesis depends on its ability to express these contextual features. Convolutional neural networks (CNNs) offer high local precision at the expense of poor sensitivity to long-range context. While transformers promise to alleviate this issue, they suffer from an unfavorable trade-off between sensitivity to long- versus short-range context due to the intrinsic complexity of attention filters. To effectively capture contextual features while avoiding the complexity-driven trade-offs, here we introduce a novel multi-modal synthesis method, I2I-Mamba, based on the state space modeling (SSM) framework. Focusing on semantic representations across a hybrid residual architecture, I2I-Mamba leverages novel dual-domain Mamba (ddMamba) blocks for complementary contextual modeling in image and Fourier domains, while maintaining spatial precision with convolutional layers. Diverting from conventional raster-scan trajectories, ddMamba leverages novel SSM operators based on a spiral-scan trajectory to learn context with enhanced radial coverage and angular isotropy, and a channel-mixing layer to aggregate context across the channel dimension. Comprehensive demonstrations on multi-contrast MRI and MRI-CT protocols indicate that I2I-Mamba offers superior performance against state-of-the-art CNNs, transformers and SSMs.

arxiv情報

著者 Omer F. Atli,Bilal Kabas,Fuat Arslan,Arda C. Demirtas,Mahmut Yurt,Onat Dalmaz,Tolga Çukur
発行日 2025-06-18 16:30:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク