Patcher: Patch Transformers with Mixture of Experts for Precise Medical Image Segmentation

要約

医療画像セグメンテーション用の新しいエンコーダ-デコーダVisionTransformerアーキテクチャであるPatcherを紹介します。
標準のVisionTransformerとは異なり、画像を大きなパッチに分割するPatcherブロックを採用しており、各パッチはさらに小さなパッチに分割されます。
トランスフォーマーは、大きなパッチ内の小さなパッチに適用され、各ピクセルの受容野を制限します。
パッチ内通信を強化するために、意図的に大きなパッチをオーバーラップさせます。
エンコーダーは、受容野が増加するパッチャーブロックのカスケードを使用して、ローカルレベルからグローバルレベルに特徴を抽出します。
この設計により、Patcherは、CNNで一般的な粗い特徴から細かい特徴の抽出と、トランスフォーマーの優れた空間関係モデリングの両方の恩恵を受けることができます。
また、新しいエキスパート混合(MoE)ベースのデコーダーを提案します。これは、エンコーダーからの機能マップをエキスパートとして扱い、各ピクセルのラベルを予測するための適切なエキスパート機能のセットを選択します。
MoEを使用すると、エキスパート機能の専門化が向上し、推論中の機能間の干渉が減少します。
広範な実験により、Patcherは、脳卒中病変のセグメンテーションとポリープのセグメンテーションにおいて、最先端のTransformerベースおよびCNNベースのアプローチよりも大幅に優れていることが示されています。
Patcherのコードは、将来の研究を容易にするために公開されてリリースされます。

要約(オリジナル)

We present a new encoder-decoder Vision Transformer architecture, Patcher, for medical image segmentation. Unlike standard Vision Transformers, it employs Patcher blocks that segment an image into large patches, each of which is further divided into small patches. Transformers are applied to the small patches within a large patch, which constrains the receptive field of each pixel. We intentionally make the large patches overlap to enhance intra-patch communication. The encoder employs a cascade of Patcher blocks with increasing receptive fields to extract features from local to global levels. This design allows Patcher to benefit from both the coarse-to-fine feature extraction common in CNNs and the superior spatial relationship modeling of Transformers. We also propose a new mixture-of-experts (MoE) based decoder, which treats the feature maps from the encoder as experts and selects a suitable set of expert features to predict the label for each pixel. The use of MoE enables better specializations of the expert features and reduces interference between them during inference. Extensive experiments demonstrate that Patcher outperforms state-of-the-art Transformer- and CNN-based approaches significantly on stroke lesion segmentation and polyp segmentation. Code for Patcher will be released with publication to facilitate future research.

arxiv情報

著者 Yanglan Ou,Ye Yuan,Xiaolei Huang,Stephen T. C. Wong,John Volpi,James Z. Wang,Kelvin Wong
発行日 2022-06-03 04:02:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク