S3TU-Net: Structured Convolution and Superpixel Transformer for Lung Nodule Segmentation

要約

コンピューター断層撮影 (CT) 画像における肺腺癌結節の不規則で困難な特徴により、病期分類診断が複雑になるため、臨床医が詳細な病変情報を抽出するには正確なセグメンテーションが重要になります。
この研究では、多次元空間コネクタとスーパーピクセルベースのビジュアルトランスフォーマーを統合したセグメンテーションモデルS3TU-Netを提案します。
S3TU-Net は、マルチビュー CNN-Transformer ハイブリッド アーキテクチャに基づいて構築されており、スーパーピクセル アルゴリズム、構造化重み付け、および空間シフト技術を組み込んで、優れたセグメンテーション パフォーマンスを実現します。
このモデルは、構造化畳み込みブロック (DWF-Conv/D2BR-Conv) を利用して、過剰適合を軽減しながらマルチスケールの局所特徴を抽出します。
マルチスケール機能の融合を強化するために、空間シフトとスキップ接続でのアテンション メカニズムを統合する S2-MLP リンクを導入します。
さらに、残差ベースのスーパーピクセル ビジュアル トランスフォーマー (RM-SViT) は、スパース相関学習とマルチブランチ アテンションを採用して長距離の依存関係を捕捉することで、グローバルな特徴とローカルな特徴を効果的にマージし、残差の接続により安定性と計算効率が向上します。
LIDC-IDRI データセットの実験結果は、S3TU-Net がそれぞれ 89.04%、90.73%、90.70% の DSC、精度、および IoU を達成していることを示しています。
最近の方法と比較して、S3TU-Net は DSC を 4.52%、感度を 3.16% 向上させ、他の指標では約 2% の向上を示しています。
比較研究とアブレーション研究に加えて、EPDB プライベート データセットでモデルの一般化能力を検証し、86.40% の DSC を達成しました。

要約(オリジナル)

The irregular and challenging characteristics of lung adenocarcinoma nodules in computed tomography (CT) images complicate staging diagnosis, making accurate segmentation critical for clinicians to extract detailed lesion information. In this study, we propose a segmentation model, S3TU-Net, which integrates multi-dimensional spatial connectors and a superpixel-based visual transformer. S3TU-Net is built on a multi-view CNN-Transformer hybrid architecture, incorporating superpixel algorithms, structured weighting, and spatial shifting techniques to achieve superior segmentation performance. The model leverages structured convolution blocks (DWF-Conv/D2BR-Conv) to extract multi-scale local features while mitigating overfitting. To enhance multi-scale feature fusion, we introduce the S2-MLP Link, integrating spatial shifting and attention mechanisms at the skip connections. Additionally, the residual-based superpixel visual transformer (RM-SViT) effectively merges global and local features by employing sparse correlation learning and multi-branch attention to capture long-range dependencies, with residual connections enhancing stability and computational efficiency. Experimental results on the LIDC-IDRI dataset demonstrate that S3TU-Net achieves a DSC, precision, and IoU of 89.04%, 90.73%, and 90.70%, respectively. Compared to recent methods, S3TU-Net improves DSC by 4.52% and sensitivity by 3.16%, with other metrics showing an approximate 2% increase. In addition to comparison and ablation studies, we validated the generalization ability of our model on the EPDB private dataset, achieving a DSC of 86.40%.

arxiv情報

著者 Yuke Wu,Xiang Liu,Yunyu Shi,Xinyi Chen,Zhenglei Wang,YuQing Xu,Shuo Hong Wang
発行日 2024-11-19 15:00:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, eess.IV パーマリンク