TEC-Net: Vision Transformer Embrace Convolutional Neural Networks for Medical Image Segmentation

要約

畳み込みニューラル ネットワーク (CNN) と Transformer のハイブリッド アーキテクチャは、医療画像のセグメンテーションで最も一般的な方法です。
しかし、ハイブリッド アーキテクチャに基づく既存のネットワークには 2 つの問題があります。
まず、CNN ブランチは畳み込み演算を使用して画像の局所的な特徴をキャプチャできますが、バニラの畳み込みでは画像の特徴の適応抽出を実現できません。
第二に、Transformer ブランチは画像のグローバル情報をモデル化できますが、従来の自己注意は画像の空間的自己注意にのみ焦点を当て、チャネルと次元横断的な自己注意を無視するため、複雑な医療画像のセグメンテーション精度が低くなります。
背景。
これらの問題を解決するために、私たちは、医療画像セグメンテーション用畳み込みニューラル ネットワーク (TEC-Net) を採用したビジョン Transformer を提案します。
私たちのネットワークには 2 つの利点があります。
まず、動的変形可能畳み込み (DDConv) が CNN ブランチで設計されています。これにより、固定サイズの畳み込みカーネルを使用した適応特徴抽出の困難が克服されるだけでなく、異なる入力が同じ畳み込みカーネル パラメーターを共有するという欠陥も解決され、効果的にパフォーマンスが向上します。
CNNブランチの特徴表現能力。
次に、Transformer ブランチでは、(シフト) ウィンドウ適応相補的アテンション モジュール ((S)W-ACAM) とコンパクトな畳み込み投影が設計されており、ネットワークが医療画像の次元を超えた長距離依存性を完全に学習できるようになります。
パラメータと計算はほとんどありません。
実験結果は、提案された TEC-Net が、CNN や Transformer ネットワークを含む SOTA 方法よりも優れた医用画像セグメンテーション結果を提供することを示しています。
さらに、当社の TEC-Net は必要なパラメーターと計算コストが少なく、事前トレーニングに依存しません。
コードは https://github.com/SR0920/TEC-Net で公開されています。

要約(オリジナル)

The hybrid architecture of convolution neural networks (CNN) and Transformer has been the most popular method for medical image segmentation. However, the existing networks based on the hybrid architecture suffer from two problems. First, although the CNN branch can capture image local features by using convolution operation, the vanilla convolution is unable to achieve adaptive extraction of image features. Second, although the Transformer branch can model the global information of images, the conventional self-attention only focuses on the spatial self-attention of images and ignores the channel and cross-dimensional self-attention leading to low segmentation accuracy for medical images with complex backgrounds. To solve these problems, we propose vision Transformer embrace convolutional neural networks for medical image segmentation (TEC-Net). Our network has two advantages. First, dynamic deformable convolution (DDConv) is designed in the CNN branch, which not only overcomes the difficulty of adaptive feature extraction using fixed-size convolution kernels, but also solves the defect that different inputs share the same convolution kernel parameters, effectively improving the feature expression ability of CNN branch. Second, in the Transformer branch, a (shifted)-window adaptive complementary attention module ((S)W-ACAM) and compact convolutional projection are designed to enable the network to fully learn the cross-dimensional long-range dependency of medical images with few parameters and calculations. Experimental results show that the proposed TEC-Net provides better medical image segmentation results than SOTA methods including CNN and Transformer networks. In addition, our TEC-Net requires fewer parameters and computational costs and does not rely on pre-training. The code is publicly available at https://github.com/SR0920/TEC-Net.

arxiv情報

著者 Tao Lei,Rui Sun,Weichuan Zhang,Yong Wan,Yong Xia,Asoke K. Nandi
発行日 2023-10-23 12:49:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク