SegViTv2: Exploring Efficient and Continual Semantic Segmentation with Plain Vision Transformers

要約

この論文では、エンコーダ/デコーダ フレームワークを使用したセマンティック セグメンテーションに対するプレーン ビジョン トランスフォーマー (ViT) の機能を調査し、\textbf{SegViTv2} を紹介します。
この研究では、プレーン ViT に効果的な軽量デコーダを設計するための新しいアテンショントゥマスク (\atm) モジュールを導入します。
提案された ATM は、グローバル アテンション マップをセマンティック マスクに変換して、高品質のセグメンテーション結果を実現します。
私たちのデコーダは、さまざまな ViT バックボーンを使用して一般的なデコーダ UPerNet よりも優れたパフォーマンスを発揮しながら、消費する計算コストは​​わずか $5\%$ です。
エンコーダに関しては、ViT ベースのエンコーダにおける比較的高い計算コストの懸念に対処し、エッジを意識したクエリベースのダウンサンプリング (EQD) とクエリベースのアップサンプリング (QU) を組み込んだ \emph{Shrunk++} 構造を提案します。
) モジュール。
Shrunk++ 構造は、競争力のあるパフォーマンスを維持しながら、エンコーダの計算コストを最大 $50\%$ 削減します。
さらに、SegViT を継続的なセマンティック セグメンテーションに適応させ、以前に学習した知識の忘却がほぼゼロであることを実証することを提案します。
実験の結果、私たちが提案した SegViTv2 は、ADE20k、COCO-Stuff-10k、PASCAL-Context データセットを含む 3 つの一般的なベンチマークで最近のセグメンテーション手法を上回っていることが示されています。
コードは、\url{https://github.com/zbwxp/SegVit} のリンクから入手できます。

要約(オリジナル)

This paper investigates the capability of plain Vision Transformers (ViTs) for semantic segmentation using the encoder-decoder framework and introduces \textbf{SegViTv2}. In this study, we introduce a novel Attention-to-Mask (\atm) module to design a lightweight decoder effective for plain ViT. The proposed ATM converts the global attention map into semantic masks for high-quality segmentation results. Our decoder outperforms the popular decoder UPerNet using various ViT backbones while consuming only about $5\%$ of the computational cost. For the encoder, we address the concern of the relatively high computational cost in the ViT-based encoders and propose a \emph{Shrunk++} structure that incorporates edge-aware query-based down-sampling (EQD) and query-based upsampling (QU) modules. The Shrunk++ structure reduces the computational cost of the encoder by up to $50\%$ while maintaining competitive performance. Furthermore, we propose to adapt SegViT for continual semantic segmentation, demonstrating nearly zero forgetting of previously learned knowledge. Experiments show that our proposed SegViTv2 surpasses recent segmentation methods on three popular benchmarks including ADE20k, COCO-Stuff-10k and PASCAL-Context datasets. The code is available through the following link: \url{https://github.com/zbwxp/SegVit}.

arxiv情報

著者 Bowen Zhang,Liyang Liu,Minh Hieu Phan,Zhi Tian,Chunhua Shen,Yifan Liu
発行日 2023-08-30 13:01:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク