MOSformer: Momentum encoder-based inter-slice fusion transformer for medical image segmentation

要約

医用画像のセグメンテーションは、さまざまな臨床応用において重要な位置を占めています。
深層学習は、体積医療画像の自動セグメンテーションのための主要なソリューションとして登場しました。
2.5D ベースのセグメンテーション モデルは、2D ベースのモデルの計算効率と 3D ベースのモデルの空間認識機能を橋渡しします。
ただし、一般的な 2.5D ベースのモデルは各スライスを同等に扱うことが多く、スライス間の情報を効果的に学習して活用することができず、結果としてセグメンテーションのパフォーマンスが最適化されていません。
この論文では、異なるエンコーダによって抽出されたマルチスケール特徴マップでスライス間情報を活用することで、この問題を解決する新しい Momentum エンコーダベースのスライス間融合変換器 (MOSformer) を提案します。
具体的には、デュアル エンコーダを使用して、異なるスライス間の特徴の区別性を高めます。
エンコーダの 1 つは、スライス表現の一貫性を維持するために移動平均されます。
さらに、スライス間のマルチスケール機能を融合するために、IF-Swin トランスモジュールが開発されています。
MOSformer は 3 つのベンチマーク データセット (Synapse、ACDC、AMOS) で評価され、それぞれ 85.63%、92.19%、および 85.43% の DSC という新しい最先端を確立しています。
これらの有望な結果は、医療画像セグメンテーションにおけるその競争力を示しています。
MOSformer のコードとモデルは、承認され次第公開されます。

要約(オリジナル)

Medical image segmentation takes an important position in various clinical applications. Deep learning has emerged as the predominant solution for automated segmentation of volumetric medical images. 2.5D-based segmentation models bridge computational efficiency of 2D-based models and spatial perception capabilities of 3D-based models. However, prevailing 2.5D-based models often treat each slice equally, failing to effectively learn and exploit inter-slice information, resulting in suboptimal segmentation performances. In this paper, a novel Momentum encoder-based inter-slice fusion transformer (MOSformer) is proposed to overcome this issue by leveraging inter-slice information at multi-scale feature maps extracted by different encoders. Specifically, dual encoders are employed to enhance feature distinguishability among different slices. One of the encoders is moving-averaged to maintain the consistency of slice representations. Moreover, an IF-Swin transformer module is developed to fuse inter-slice multi-scale features. The MOSformer is evaluated on three benchmark datasets (Synapse, ACDC, and AMOS), establishing a new state-of-the-art with 85.63%, 92.19%, and 85.43% of DSC, respectively. These promising results indicate its competitiveness in medical image segmentation. Codes and models of MOSformer will be made publicly available upon acceptance.

arxiv情報

著者 De-Xing Huang,Xiao-Hu Zhou,Xiao-Liang Xie,Shi-Qi Liu,Zhen-Qiu Feng,Mei-Jiang Gui,Hao Li,Tian-Yu Xiang,Xiu-Ling Liu,Zeng-Guang Hou
発行日 2024-01-22 11:25:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク