Minimalist and High-Performance Semantic Segmentation with Plain Vision Transformers

要約

マスク イメージ モデリング (MIM) の影響で、さまざまな単純な非階層ビジョン トランスフォーマー (ViT) モデルが広範なデータセットで事前トレーニングされ、新しいパラダイムとセマンティック セグメンテーションの大きな可能性を提供しています。
現在の最先端のシステムには多数の誘導バイアスが組み込まれており、扱いにくいデコーダが使用されています。
シンプルさと汎用性というプレーンな ViT の本来の動機に基づいて、この目的のために高性能の「ミニマリスト」システムを探求します。
私たちの主な目的は、プレーンな ViT を使用した実用的なセマンティック セグメンテーションのためのシンプルで効率的なベースラインを提供することです。
具体的には、最初に、最後の特徴マップを使用して高性能のセマンティック セグメンテーションを実現するための実現可能性と方法論を調査します。
その結果、トランスフォーマー層 (エンコーダーまたはデコーダー) に加えて 3 つの 3$\times$3 畳み込みのみで構成されるモデルである PlainSeg を導入します。
このプロセスでは、2 つの基本原理についての洞察を提供します。(i) シンプルなアップサンプリング技術を採用しているにもかかわらず、高性能には高解像度機能が不可欠であること、(ii) スリム トランス デコーダはワイド トランス デコーダよりもはるかに大きな学習速度を必要とすることです。
トランスデコーダー。
これに基づいて、階層機能の利用を可能にする PlainSeg-Hier をさらに紹介します。
4 つの一般的なベンチマークに関する広範な実験により、私たちの手法の高いパフォーマンスと効率が実証されました。
これらは、セマンティック セグメンテーションにおけるベース モデルの転送能力を評価するための強力なツールとしても機能します。
コードは \url{https://github.com/ydhongHIT/PlainSeg} で入手できます。

要約(オリジナル)

In the wake of Masked Image Modeling (MIM), a diverse range of plain, non-hierarchical Vision Transformer (ViT) models have been pre-trained with extensive datasets, offering new paradigms and significant potential for semantic segmentation. Current state-of-the-art systems incorporate numerous inductive biases and employ cumbersome decoders. Building upon the original motivations of plain ViTs, which are simplicity and generality, we explore high-performance `minimalist’ systems to this end. Our primary purpose is to provide simple and efficient baselines for practical semantic segmentation with plain ViTs. Specifically, we first explore the feasibility and methodology for achieving high-performance semantic segmentation using the last feature map. As a result, we introduce the PlainSeg, a model comprising only three 3$\times$3 convolutions in addition to the transformer layers (either encoder or decoder). In this process, we offer insights into two underlying principles: (i) high-resolution features are crucial to high performance in spite of employing simple up-sampling techniques and (ii) the slim transformer decoder requires a much larger learning rate than the wide transformer decoder. On this basis, we further present the PlainSeg-Hier, which allows for the utilization of hierarchical features. Extensive experiments on four popular benchmarks demonstrate the high performance and efficiency of our methods. They can also serve as powerful tools for assessing the transfer ability of base models in semantic segmentation. Code is available at \url{https://github.com/ydhongHIT/PlainSeg}.

arxiv情報

著者 Yuanduo Hong,Jue Wang,Weichao Sun,Huihui Pan
発行日 2023-10-19 14:01:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク