Spatial-Frequency Dual Progressive Attention Network For Medical Image Segmentation

要約

医療画像では、さまざまな種類の病変の形状や質感が大きく異なることがよくあります。
医療画像の正確なセグメンテーションには、マルチスケールおよび境界特徴学習における堅牢な機能を備えた深層学習モデルが必要です。
ただし、以前のネットワークでは、上記の問題に対処するには依然として限界があります。
まず、以前のネットワークは、マルチレベルの機能を同時に融合したり、深い監視を採用したりして、マルチスケール学習を強化していました。
ただし、これにより機能の冗長性や過剰な計算オーバーヘッドが発生する可能性があり、ネットワークのトレーニングや臨床展開には適していません。
第 2 に、医療画像セグメンテーション ネットワークの大部分は、周波数領域の豊富なグローバル情報を無視して、空間領域の特徴のみを学習します。
その結果、低周波成分に偏り、重要な高周波情報が無視されます。
これらの問題に対処するために、空間周波数デュアルドメイン アテンション ネットワークである SF-UNet を導入します。
これは 2 つの主要コンポーネントで構成されます。隣接するエンコーダー層にわたってマルチスケール特徴を段階的に抽出するマルチスケール プログレッシブ チャネル アテンション (MPCA) ブロックと、わずか 0.05M のパラメーターを備えた軽量の周波数空間アテンション (FSA) ブロックで、同時実行を可能にします。
空間領域と周波数領域の両方からテクスチャと境界の特徴を学習します。
提案されている SF-UNet の有効性を 3 つの公開データセットで検証します。
実験結果によると、以前の最先端 (SOTA) 医用画像セグメンテーション ネットワークと比較して、SF-UNet は最高のパフォーマンスを実現し、DSC と IOU で最大 9.4\% および 10.78\% の向上を達成しました。
コードは https://github.com/nkicsl/SF-UNet でリリースされます。

要約(オリジナル)

In medical images, various types of lesions often manifest significant differences in their shape and texture. Accurate medical image segmentation demands deep learning models with robust capabilities in multi-scale and boundary feature learning. However, previous networks still have limitations in addressing the above issues. Firstly, previous networks simultaneously fuse multi-level features or employ deep supervision to enhance multi-scale learning. However, this may lead to feature redundancy and excessive computational overhead, which is not conducive to network training and clinical deployment. Secondly, the majority of medical image segmentation networks exclusively learn features in the spatial domain, disregarding the abundant global information in the frequency domain. This results in a bias towards low-frequency components, neglecting crucial high-frequency information. To address these problems, we introduce SF-UNet, a spatial-frequency dual-domain attention network. It comprises two main components: the Multi-scale Progressive Channel Attention (MPCA) block, which progressively extract multi-scale features across adjacent encoder layers, and the lightweight Frequency-Spatial Attention (FSA) block, with only 0.05M parameters, enabling concurrent learning of texture and boundary features from both spatial and frequency domains. We validate the effectiveness of the proposed SF-UNet on three public datasets. Experimental results show that compared to previous state-of-the-art (SOTA) medical image segmentation networks, SF-UNet achieves the best performance, and achieves up to 9.4\% and 10.78\% improvement in DSC and IOU. Codes will be released at https://github.com/nkicsl/SF-UNet.

arxiv情報

著者 Zhenhuan Zhou,Along He,Yanlin Wu,Rui Yao,Xueshuo Xie,Tao Li
発行日 2024-08-19 14:56:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク