ScaleFormer: Revisiting the Transformer-based Backbones from a Scale-wise Perspective for Medical Image Segmentation

要約

最近では、長距離依存関係をモデル化する機能として、さまざまなビジョン トランスフォーマーが開発されています。
現在の医用画像セグメンテーション用のトランスフォーマー ベースのバックボーンでは、畳み込みレイヤーが純粋なトランスフォーマーに置き換えられるか、トランスフォーマーが最も深いエンコーダーに追加されて、グローバル コンテキストが学習されました。
ただし、スケールごとの観点では、主に 2 つの課題があります。(1) スケール内の問題: 既存の方法では、各スケールでローカル/グローバル キューを抽出することができず、小さなオブジェクトの信号伝搬に影響を与える可能性があります。
(2) スケール間問題: 既存の方法では、複数のスケールからの特徴的な情報を探索できませんでした。これは、サイズ、形状、および場所が大きく変化するオブジェクトから学習する表現を妨げる可能性があります。
これらの制限に対処するために、2 つの魅力的な設計を備えた新しいバックボーン、すなわち ScaleFormer を提案します。
、行方向および列方向のグローバル依存関係は、軽量の Dual-Axis MSA によって抽出できます。
(2) シンプルで効果的な空間認識スケール間トランスフォーマーは、複数のスケールの合意領域間で相互作用するように設計されており、スケール間の依存関係を強調し、複雑なスケールの変動を解決できます。
さまざまなベンチマークでの実験結果は、Scale-Former が現在の最先端の方法よりも優れていることを示しています。
コードは、https://github.com/ZJUGiveLab/ScaleFormer で公開されています。

要約(オリジナル)

Recently, a variety of vision transformers have been developed as their capability of modeling long-range dependency. In current transformer-based backbones for medical image segmentation, convolutional layers were replaced with pure transformers, or transformers were added to the deepest encoder to learn global context. However, there are mainly two challenges in a scale-wise perspective: (1) intra-scale problem: the existing methods lacked in extracting local-global cues in each scale, which may impact the signal propagation of small objects; (2) inter-scale problem: the existing methods failed to explore distinctive information from multiple scales, which may hinder the representation learning from objects with widely variable size, shape and location. To address these limitations, we propose a novel backbone, namely ScaleFormer, with two appealing designs: (1) A scale-wise intra-scale transformer is designed to couple the CNN-based local features with the transformer-based global cues in each scale, where the row-wise and column-wise global dependencies can be extracted by a lightweight Dual-Axis MSA. (2) A simple and effective spatial-aware inter-scale transformer is designed to interact among consensual regions in multiple scales, which can highlight the cross-scale dependency and resolve the complex scale variations. Experimental results on different benchmarks demonstrate that our Scale-Former outperforms the current state-of-the-art methods. The code is publicly available at: https://github.com/ZJUGiveLab/ScaleFormer.

arxiv情報

著者 Huimin Huang,Shiao Xie1,Lanfen Lin,Yutaro Iwamoto,Xianhua Han,Yen-Wei Chen,Ruofeng Tong
発行日 2022-07-29 08:55:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク