MetaSeg: MetaFormer-based Global Contexts-aware Network for Efficient Semantic Segmentation

要約

Transformer を超えて、Transformer のパフォーマンス向上の基礎となるアーキテクチャである MetaFormer の能力を活用する方法を検討することが重要です。
これまでの研究では、バックボーン ネットワークにのみこれを利用していました。
以前の研究とは異なり、セマンティック セグメンテーション タスクにおいて Metaformer アーキテクチャの能力をより広範囲に調査します。
私たちは、バックボーンからデコーダまで Metaformer アーキテクチャを活用する、強力なセマンティック セグメンテーション ネットワーク MetaSeg を提案します。
私たちの MetaSeg は、MetaFormer アーキテクチャがバックボーンだけでなくデコーダにとっても有用なコンテキストを捕捉する上で重要な役割を果たしていることを示しています。
さらに、最近のセグメンテーション手法では、空間情報の抽出に CNN ベースのバックボーンを使用し、グローバル情報の抽出にデコーダを使用する方が、トランスフォーマ ベースのバックボーンと CNN ベースのデコーダを使用するよりも効果的であることが示されています。
これにより、MetaFormer ブロックを使用して CNN ベースのバックボーンを採用し、グローバル コンテキストをキャプチャするための新しいセルフ アテンション モジュールで構成される MetaFormer ベースのデコーダを設計することができました。
グローバルコンテキスト抽出とセマンティックセグメンテーションのためのセルフアテンションの計算効率の両方を考慮するために、クエリとキーのチャネル次元を1つの次元に削減するチャネル削減アテンション(CRA)モジュールを提案します。
このようにして、私たちが提案する MetaSeg は、ADE20K、Cityscapes、COCO-stuff、Synapse などの一般的なセマンティック セグメンテーションおよび医療画像セグメンテーション ベンチマークにおいて、より効率的な計算コストで以前の最先端の方法よりも優れたパフォーマンスを発揮します。
コードは \url{https://github.com/hyunwoo137/MetaSeg} で入手できます。

要約(オリジナル)

Beyond the Transformer, it is important to explore how to exploit the capacity of the MetaFormer, an architecture that is fundamental to the performance improvements of the Transformer. Previous studies have exploited it only for the backbone network. Unlike previous studies, we explore the capacity of the Metaformer architecture more extensively in the semantic segmentation task. We propose a powerful semantic segmentation network, MetaSeg, which leverages the Metaformer architecture from the backbone to the decoder. Our MetaSeg shows that the MetaFormer architecture plays a significant role in capturing the useful contexts for the decoder as well as for the backbone. In addition, recent segmentation methods have shown that using a CNN-based backbone for extracting the spatial information and a decoder for extracting the global information is more effective than using a transformer-based backbone with a CNN-based decoder. This motivates us to adopt the CNN-based backbone using the MetaFormer block and design our MetaFormer-based decoder, which consists of a novel self-attention module to capture the global contexts. To consider both the global contexts extraction and the computational efficiency of the self-attention for semantic segmentation, we propose a Channel Reduction Attention (CRA) module that reduces the channel dimension of the query and key into the one dimension. In this way, our proposed MetaSeg outperforms the previous state-of-the-art methods with more efficient computational costs on popular semantic segmentation and a medical image segmentation benchmark, including ADE20K, Cityscapes, COCO-stuff, and Synapse. The code is available at \url{https://github.com/hyunwoo137/MetaSeg}.

arxiv情報

著者 Beoungwoo Kang,Seunghun Moon,Yubin Cho,Hyunwoo Yu,Suk-Ju Kang
発行日 2024-08-14 14:16:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク