要約
Transformerは畳み込みニューラルネットワークと比較して、意味的なセグメンテーションにおいてより良いパフォーマンスを示すとよく信じられている。しかしながら、オリジナルのVision Transformerは、局所近傍の帰納的バイアスを欠き、高い時間複雑性を持っています。近年、Swin Transformerは、階層型アーキテクチャとシフトウィンドウを用いることにより、より効率的に、様々なビジョンタスクにおいて新記録を樹立しました。しかし、Swin Transformerは画像分類に特化して設計されているため、密な予測に基づくセグメンテーションタスクでは最適でない性能を達成する可能性がある。さらに、Swin Transformerを既存の手法と単純に組み合わせることは、最終的なセグメンテーションモデルのサイズとパラメータを増加させることにつながる。本論文では、セマンティックセグメンテーションのためのSwin変換器を再考し、SSformerと呼ばれる軽量かつ効果的な変換器モデルを設計する。このモデルでは、Swin変換器固有の階層的な設計を考慮し、異なる層からの情報を集約するデコーダを提案することで、局所的な注意と大域的な注意の両方を得る。実験の結果、提案するSSformerは、より小さなモデルサイズとより低い計算量を維持しながら、最先端モデルと同等のmIoU性能を実現することが示された。
要約(オリジナル)
It is well believed that Transformer performs better in semantic segmentation compared to convolutional neural networks. Nevertheless, the original Vision Transformer may lack of inductive biases of local neighborhoods and possess a high time complexity. Recently, Swin Transformer sets a new record in various vision tasks by using hierarchical architecture and shifted windows while being more efficient. However, as Swin Transformer is specifically designed for image classification, it may achieve suboptimal performance on dense prediction-based segmentation task. Further, simply combing Swin Transformer with existing methods would lead to the boost of model size and parameters for the final segmentation model. In this paper, we rethink the Swin Transformer for semantic segmentation, and design a lightweight yet effective transformer model, called SSformer. In this model, considering the inherent hierarchical design of Swin Transformer, we propose a decoder to aggregate information from different layers, thus obtaining both local and global attentions. Experimental results show the proposed SSformer yields comparable mIoU performance with state-of-the-art models, while maintaining a smaller model size and lower compute.
arxiv情報
著者 | Wentao Shi,Jing Xu,Pan Gao |
発行日 | 2022-08-03 12:57:00+00:00 |
arxivサイト | arxiv_id(pdf) |