要約
コンピュータ ビジョンにおける重要なタスクである医療画像のセグメンテーションは、解剖学的構造と病理の自動描写を容易にし、診断、治療計画、疾患のモニタリングにおいて臨床医をサポートします。
特に、シフトウィンドウベースのセルフアテンションを採用した変圧器は、優れた性能を実証しています。
ただし、ローカルウィンドウの注意に依存しているため、微小腫瘍や小型臓器のセグメント化に重要な、ローカルとグローバルのコンテキスト情報の融合が制限されます。
この制限に対処するために、私たちは、正確な医療画像セグメンテーションのためにローカル機能とグローバル機能を効果的に統合する変換アーキテクチャである Adaptive Semantic Segmentation Network (ASSNet) を提案します。
ASSNet は、トランスベースの U 字型エンコーダ/デコーダ ネットワークで構成されます。
エンコーダは、5 つの解像度にわたるシフト ウィンドウ セルフ アテンションを利用してマルチスケール特徴を抽出し、その後スキップ接続を通じてデコーダに伝播します。
特徴抽出中に長距離依存関係を明示的にモデル化するために、エンコーダー内に拡張多層パーセプトロンを導入します。
従来の対称エンコーダ/デコーダ設計の制約を認識して、エンコーダを補完する適応型特徴融合 (AFF) デコーダを提案します。
このデコーダには、Long Range dependency (LRD) ブロック、Multi-Scale Feature Fusion (MFF) ブロック、Adaptive Semantic Center (ASC) ブロックという 3 つの主要なコンポーネントが組み込まれています。
これらのコンポーネントは、長距離の依存関係を捕捉し、オブジェクトの境界を洗練しながら、デコーダーによって抽出されたマルチスケールの特徴の効果的な融合を相乗的に促進します。
多臓器、肝腫瘍、膀胱腫瘍のセグメンテーションなど、さまざまな医療画像セグメンテーション タスクに関する包括的な実験により、ASSNet が最先端の結果を達成できることが実証されました。
コードとモデルは \url{https://github.com/lzeeorno/ASSNet} から入手できます。
要約(オリジナル)
Medical image segmentation, a crucial task in computer vision, facilitates the automated delineation of anatomical structures and pathologies, supporting clinicians in diagnosis, treatment planning, and disease monitoring. Notably, transformers employing shifted window-based self-attention have demonstrated exceptional performance. However, their reliance on local window attention limits the fusion of local and global contextual information, crucial for segmenting microtumors and miniature organs. To address this limitation, we propose the Adaptive Semantic Segmentation Network (ASSNet), a transformer architecture that effectively integrates local and global features for precise medical image segmentation. ASSNet comprises a transformer-based U-shaped encoder-decoder network. The encoder utilizes shifted window self-attention across five resolutions to extract multi-scale features, which are then propagated to the decoder through skip connections. We introduce an augmented multi-layer perceptron within the encoder to explicitly model long-range dependencies during feature extraction. Recognizing the constraints of conventional symmetrical encoder-decoder designs, we propose an Adaptive Feature Fusion (AFF) decoder to complement our encoder. This decoder incorporates three key components: the Long Range Dependencies (LRD) block, the Multi-Scale Feature Fusion (MFF) block, and the Adaptive Semantic Center (ASC) block. These components synergistically facilitate the effective fusion of multi-scale features extracted by the decoder while capturing long-range dependencies and refining object boundaries. Comprehensive experiments on diverse medical image segmentation tasks, including multi-organ, liver tumor, and bladder tumor segmentation, demonstrate that ASSNet achieves state-of-the-art results. Code and models are available at: \url{https://github.com/lzeeorno/ASSNet}.
arxiv情報
著者 | Fuchen Zheng,Xinyi Chen,Xuhang Chen,Haolun Li,Xiaojiao Guo,Weihuang Liu,Chi-Man Pun,Shoujun Zhou |
発行日 | 2024-12-10 16:16:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google