DAE-Former: Dual Attention-guided Efficient Transformer for Medical Image Segmentation

要約

Transformerは長距離依存性をモデル化できることから、近年コンピュータビジョン分野で注目されている。しかし、Transformerのモデルの中核をなす自己注視機構は、通常、トークンの数に対して二次関数的な計算量に悩まされている。多くのアーキテクチャでは、自己アテンション機構を局所的な領域に限定したり、トークン化処理を再設計することでモデルの複雑性を低減することが試みられている。本論文では、自己アテンション機構を効率的に設計することで別の視点を提供しようとする新しい手法であるDAE-Formerを提案する。具体的には、計算効率を維持しつつ、特徴量次元全体にわたって空間的関係とチャンネル的関係の両方を捕捉するように自己アテンション機構を再設計する。さらに、特徴の再利用性を確保し、局所化能力を向上させるために、交差注意モジュールを含むスキップ接続経路を再設計する。本手法は、多臓器心筋および皮膚病変のセグメンテーションデータセットにおいて、事前学習用の重みを必要とせず、最先端の手法を凌駕する性能を発揮する。コードは https://github.com/mindflow-institue/DAEFormer で公開されている。

要約(オリジナル)

Transformers have recently gained attention in the computer vision domain due to their ability to model long-range dependencies. However, the self-attention mechanism, which is the core part of the Transformer model, usually suffers from quadratic computational complexity with respect to the number of tokens. Many architectures attempt to reduce model complexity by limiting the self-attention mechanism to local regions or by redesigning the tokenization process. In this paper, we propose DAE-Former, a novel method that seeks to provide an alternative perspective by efficiently designing the self-attention mechanism. More specifically, we reformulate the self-attention mechanism to capture both spatial and channel relations across the whole feature dimension while staying computationally efficient. Furthermore, we redesign the skip connection path by including the cross-attention module to ensure the feature reusability and enhance the localization power. Our method outperforms state-of-the-art methods on multi-organ cardiac and skin lesion segmentation datasets without requiring pre-training weights. The code is publicly available at https://github.com/mindflow-institue/DAEFormer.

arxiv情報

著者 Reza Azad,René Arimond,Ehsan Khodapanah Aghdam,Amirhossein Kazerouni,Dorit Merhof
発行日 2023-01-09 15:11:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク