TransDeepLab: Convolution-Free Transformer-based DeepLab v3+ for Medical Image Segmentation

要約

畳み込みニューラル ネットワーク (CNN) は、長年にわたり、さまざまなコンピューター ビジョン タスクの事実上の標準となっています。
特に、スキップ接続を使用した U 字型モデルやピラミッド プーリングを使用したアトラス畳み込みなどの独創的なアーキテクチャに基づくディープ ニューラル ネットワークは、幅広い医療画像分析タスクに合わせて調整されています。
このようなアーキテクチャの主な利点は、多目的なローカル機能を保持しやすいことです。
ただし、一般的なコンセンサスとして、CNN は、畳み込み演算の限られた受容野サイズの固有の特性により、長距離の依存関係と空間相関を捉えることができません。
あるいは、自己注意メカニズムに由来するグローバルな情報モデリングから利益を得ている Transformer は、最近、自然言語処理とコンピューター ビジョンで目覚ましいパフォーマンスを達成しました。
それにもかかわらず、以前の研究は、ローカルとグローバルの両方の機能が、異なる形状や構成を持つ複雑な構造のセグメント化など、高密度予測の深いモデルにとって重要であることを証明しています。
この目的のために、この論文では、医用画像セグメンテーション用の新しい DeepLab のような純粋なトランスフォーマーである TransDeepLab を提案します。
具体的には、ウィンドウをシフトした階層型 Swin-Transformer を利用して、DeepLabv3 を拡張し、Atrous Spatial Pyramid Pooling (ASPP) モジュールをモデル化します。
関連する文献を徹底的に検索した結果、純粋な Transformer ベースのモデルで影響力のある DeepLab モデルをモデル化した最初の企業であることがわかりました。
さまざまな医用画像セグメンテーション タスクに関する広範な実験により、モデルの複雑さの大幅な削減とともに、Vision Transformer と CNN ベースの手法の融合に関する最新の研究と同等の優れたパフォーマンスを発揮することが検証されました。
コードとトレーニング済みモデルは、https://github.com/rezazad68/transdeeplab で公開されています。

要約(オリジナル)

Convolutional neural networks (CNNs) have been the de facto standard in a diverse set of computer vision tasks for many years. Especially, deep neural networks based on seminal architectures such as U-shaped models with skip-connections or atrous convolution with pyramid pooling have been tailored to a wide range of medical image analysis tasks. The main advantage of such architectures is that they are prone to detaining versatile local features. However, as a general consensus, CNNs fail to capture long-range dependencies and spatial correlations due to the intrinsic property of confined receptive field size of convolution operations. Alternatively, Transformer, profiting from global information modelling that stems from the self-attention mechanism, has recently attained remarkable performance in natural language processing and computer vision. Nevertheless, previous studies prove that both local and global features are critical for a deep model in dense prediction, such as segmenting complicated structures with disparate shapes and configurations. To this end, this paper proposes TransDeepLab, a novel DeepLab-like pure Transformer for medical image segmentation. Specifically, we exploit hierarchical Swin-Transformer with shifted windows to extend the DeepLabv3 and model the Atrous Spatial Pyramid Pooling (ASPP) module. A thorough search of the relevant literature yielded that we are the first to model the seminal DeepLab model with a pure Transformer-based model. Extensive experiments on various medical image segmentation tasks verify that our approach performs superior or on par with most contemporary works on an amalgamation of Vision Transformer and CNN-based methods, along with a significant reduction of model complexity. The codes and trained models are publicly available at https://github.com/rezazad68/transdeeplab

arxiv情報

著者 Reza Azad,Moein Heidari,Moein Shariatnia,Ehsan Khodapanah Aghdam,Sanaz Karimijafarbigloo,Ehsan Adeli,Dorit Merhof
発行日 2022-08-01 09:53:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, eess.IV パーマリンク