nnY-Net: Swin-NeXt with Cross-Attention for 3D Medical Images Segmentation

要約

本論文では、nnY-Netと呼ばれる新しい3次元医用画像セグメンテーションモデル構造を提供する。この名前は、本モデルがU-net構造の下部にクロスアテンションモジュールを追加し、Y構造を形成することに由来する。我々は、MedNeXtとSwinUNETRという2つの最新のSOTAモデルの利点を統合し、Swin Transformerをエンコーダーとして、ConvNeXtをデコーダーとして用いて、Swin-NeXt構造を革新的に設計する。我々のモデルは、エンコーダの最下位レベルの特徴マップをKeyとValueとして使用し、病態や治療情報などの患者の特徴をQueryとして使用し、Cross Attentionモジュールで注意の重みを計算する。さらに、dynUnetとnnU-netフレームワークに基づく3D画像セグメンテーションにおいて、いくつかの事前処理と事後処理、およびデータ拡張手法を簡略化する。このフレームワークに、我々の提案するSwin-NeXt with Cross-Attentionフレームワークを統合する。最後に、DiceFocalCELossを構築し、ボクセル分類の不均一なデータ収束に対する学習効率を改善する。

要約(オリジナル)

This paper provides a novel 3D medical image segmentation model structure called nnY-Net. This name comes from the fact that our model adds a cross-attention module at the bottom of the U-net structure to form a Y structure. We integrate the advantages of the two latest SOTA models, MedNeXt and SwinUNETR, and use Swin Transformer as the encoder and ConvNeXt as the decoder to innovatively design the Swin-NeXt structure. Our model uses the lowest-level feature map of the encoder as Key and Value and uses patient features such as pathology and treatment information as Query to calculate the attention weights in a Cross Attention module. Moreover, we simplify some pre- and post-processing as well as data enhancement methods in 3D image segmentation based on the dynUnet and nnU-net frameworks. We integrate our proposed Swin-NeXt with Cross-Attention framework into this framework. Last, we construct a DiceFocalCELoss to improve the training efficiency for the uneven data convergence of voxel classification.

arxiv情報

著者 Haixu Liu,Zerui Tao,Wenzhen Dong,Qiuzhuang Sun
発行日 2025-01-02 18:46:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク