DWRSeg: Dilation-wise Residual Network for Real-time Semantic Segmentation

要約

リアルタイムセマンティックセグメンテーションは、インテリジェントビークルのシナリオにおいて重要な役割を担っている。近年、リアルタイムセマンティックセグメンテーションタスクにおいて、特徴抽出を容易にするために、マルチサイズ受容野からの情報を取り入れたネットワークが数多く提案されている。しかし、これらの手法では、より多くの文脈情報を引き出すために巨大な受容野を優先的に採用しているため、特徴抽出が非効率的になる可能性がある。我々は、実時間課題における効率的な特徴抽出の要求を考慮すると、精巧な受容野が重要であると考えている。そこで、我々は、異なるステージで異なる受容野サイズを持つDilation-wise Residual Segmentation (DWRSeg)と呼ばれる効果的かつ効率的なアーキテクチャを提案する。このアーキテクチャは、(i)高レベルの受容野の異なるスケールに基づく特徴を抽出するDilation-wise Residual (DWR)モジュール、(ii)低ステージの特徴を抽出する逆ボトルネック構造を用いた Simple Inverted Residual (SIR) モジュール、および(iii) マルチスケール特徴マップを集約して予測を生成するFCN (Fully convolutional network) に似たデコードで構成されています。CityscapesとCamVidのデータセットを用いた広範な実験により、軽量であることに加え、精度と推論速度のトレードオフを実現し、本手法の有効性を実証しています。事前学習を使用せず、また学習トリックに頼ることなく、NVIDIA GeForce GTX 1080 Tiカード1枚で319.5FPSの速度でCityscapesテストセットにおいて72.7%のmIoUを達成し、これは既存の手法より大幅に速い速度です。コードと学習済みモデルは一般に公開されています。

要約(オリジナル)

Real-time semantic segmentation has played an important role in intelligent vehicle scenarios. Recently, numerous networks have incorporated information from multi-size receptive fields to facilitate feature extraction in real-time semantic segmentation tasks. However, these methods preferentially adopt massive receptive fields to elicit more contextual information, which may result in inefficient feature extraction. We believe that the elaborated receptive fields are crucial, considering the demand for efficient feature extraction in real-time tasks. Therefore, we propose an effective and efficient architecture termed Dilation-wise Residual segmentation (DWRSeg), which possesses different sets of receptive field sizes within different stages. The architecture involves (i) a Dilation-wise Residual (DWR) module for extracting features based on different scales of receptive fields in the high level of the network; (ii) a Simple Inverted Residual (SIR) module that uses an inverted bottleneck structure to extract features from the low stage; and (iii) a simple fully convolutional network (FCN)-like decoder for aggregating multiscale feature maps to generate the prediction. Extensive experiments on the Cityscapes and CamVid datasets demonstrate the effectiveness of our method by achieving a state-of-the-art trade-off between accuracy and inference speed, in addition to being lighter weight. Without using pretraining or resorting to any training trick, we achieve 72.7% mIoU on the Cityscapes test set at a speed of 319.5 FPS on one NVIDIA GeForce GTX 1080 Ti card, which is significantly faster than existing methods. The code and trained models are publicly available.

arxiv情報

著者 Haoran Wei,Xu Liu,Shouchun Xu,Zhongjian Dai,Yaping Dai,Xiangyang Xu
発行日 2022-12-02 13:55:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV パーマリンク