要約
本論文では、nnY-Netと呼ばれる新しい3次元医用画像セグメンテーションモデル構造を提供する。この名前は、本モデルがU-net構造の下部にクロスアテンションモジュールを追加し、Y構造を形成することに由来する。我々は、MedNeXtとSwinUNETRという2つの最新のSOTAモデルの利点を統合し、Swin Transformerをエンコーダーとして、ConvNeXtをデコーダーとして用いて、Swin-NeXt構造を革新的に設計する。我々のモデルは、エンコーダの最下位レベルの特徴マップをKeyとValueとして使用し、病態や治療情報などの患者の特徴をQueryとして使用し、Cross Attentionモジュールで注意の重みを計算する。さらに、dynUnetとnnU-netフレームワークに基づく3D画像セグメンテーションにおいて、いくつかの事前処理と事後処理、およびデータ拡張手法を簡略化する。このフレームワークに、我々の提案するSwin-NeXt with Cross-Attentionフレームワークを統合する。最後に、DiceFocalCELossを構築し、ボクセル分類の不均一なデータ収束に対する学習効率を改善する。
要約(オリジナル)
This paper provides a novel 3D medical image segmentation model structure called nnY-Net. This name comes from the fact that our model adds a cross-attention module at the bottom of the U-net structure to form a Y structure. We integrate the advantages of the two latest SOTA models, MedNeXt and SwinUNETR, and use Swin Transformer as the encoder and ConvNeXt as the decoder to innovatively design the Swin-NeXt structure. Our model uses the lowest-level feature map of the encoder as Key and Value and uses patient features such as pathology and treatment information as Query to calculate the attention weights in a Cross Attention module. Moreover, we simplify some pre- and post-processing as well as data enhancement methods in 3D image segmentation based on the dynUnet and nnU-net frameworks. We integrate our proposed Swin-NeXt with Cross-Attention framework into this framework. Last, we construct a DiceFocalCELoss to improve the training efficiency for the uneven data convergence of voxel classification.
arxiv情報
著者 | Haixu Liu,Zerui Tao,Wenzhen Dong,Qiuzhuang Sun |
発行日 | 2025-01-02 18:46:41+00:00 |
arxivサイト | arxiv_id(pdf) |