要約
医用画像のセグメンテーションは、病変の自動認識と解析において重要な役割を果たす。3次元セマンティックセグメンテーションでは、スケーラビリティと汎用性に優れることから、特に変換器を利用した最新の手法が盛んに採用されている。しかし、平明な視覚変換器は、局所的な特徴を無視し、計算量が多いという課題がある。これらの課題を解決するために、我々は3つの主要な貢献を紹介する:第一に、我々はSegStitchを提案した。SegStitchは、変換器とノイズ除去ODEブロックを統合した革新的なアーキテクチャである。3Dボリューム全体を入力とする代わりに、軸方向のパッチを適応し、意味的一貫性を確保するためにパッチ単位のクエリをカスタマイズする。さらに、BTCVとACDCデータセットで広範な実験を行い、最先端の手法と比較して、mDSCでそれぞれ11.48%と6.71%の改善を達成した。最後に、我々の提案手法は、UNETRと比較して、パラメータ数を36.7%、FLOPS数を10.7%削減し、卓越した効率を示している。この進歩は、我々の手法を実臨床に適応させるための有望な可能性を秘めている。コードはhttps://github.com/goblin327/SegStitch
要約(オリジナル)
Medical imaging segmentation plays a significant role in the automatic recognition and analysis of lesions. State-of-the-art methods, particularly those utilizing transformers, have been prominently adopted in 3D semantic segmentation due to their superior performance in scalability and generalizability. However, plain vision transformers encounter challenges due to their neglect of local features and their high computational complexity. To address these challenges, we introduce three key contributions: Firstly, we proposed SegStitch, an innovative architecture that integrates transformers with denoising ODE blocks. Instead of taking whole 3D volumes as inputs, we adapt axial patches and customize patch-wise queries to ensure semantic consistency. Additionally, we conducted extensive experiments on the BTCV and ACDC datasets, achieving improvements up to 11.48% and 6.71% respectively in mDSC, compared to state-of-the-art methods. Lastly, our proposed method demonstrates outstanding efficiency, reducing the number of parameters by 36.7% and the number of FLOPS by 10.7% compared to UNETR. This advancement holds promising potential for adapting our method to real-world clinical practice. The code will be available at https://github.com/goblin327/SegStitch
arxiv情報
著者 | Shengbo Tan,Zeyu Zhang,Ying Cai,Daji Ergu,Lin Wu,Binbin Hu,Pengzhang Yu,Yang Zhao |
発行日 | 2024-08-01 12:05:02+00:00 |
arxivサイト | arxiv_id(pdf) |