Multi Receptive Field Network for Semantic Segmentation


意味的セグメンテーションは、コンピュータビジョンにおける重要なタスクの一つであり、画像中の各画素にカテゴリラベルを割り当てることである。近年、大きな進歩が見られるものの、既存の手法の多くは、依然として2つの困難な問題に悩まされている。1) 画像中の物体や物のサイズは非常に多様であるため、マルチスケール特徴を完全畳み込みネットワーク(FCN)に取り込む必要がある。2) 畳み込みネットワークの本質的な弱点により、物体や物の境界付近の画素は分類が困難である。そこで、本研究では、マルチスケール特徴を明示的に考慮した新しいマルチレセプティブフィールドモジュール(MRFM)を提案する。第二の課題に対しては、物体や物の境界を識別するのに有効な、エッジを考慮した損失を設計する。これら2つの設計により、我々のMulti Receptive Field Networkは、広く用いられている2つの意味的セグメンテーションベンチマークデータセットにおいて、新たな最先端結果を達成することができた。具体的には、Cityscapesデータセットにおいて平均IoU83.0を、Pascal VOC2012データセットにおいて平均IoU88.4を達成した。


Semantic segmentation is one of the key tasks in computer vision, which is to assign a category label to each pixel in an image. Despite significant progress achieved recently, most existing methods still suffer from two challenging issues: 1) the size of objects and stuff in an image can be very diverse, demanding for incorporating multi-scale features into the fully convolutional networks (FCNs); 2) the pixels close to or at the boundaries of object/stuff are hard to classify due to the intrinsic weakness of convolutional networks. To address the first issue, we propose a new Multi-Receptive Field Module (MRFM), explicitly taking multi-scale features into account. For the second issue, we design an edge-aware loss which is effective in distinguishing the boundaries of object/stuff. With these two designs, our Multi Receptive Field Network achieves new state-of-the-art results on two widely-used semantic segmentation benchmark datasets. Specifically, we achieve a mean IoU of 83.0 on the Cityscapes dataset and 88.4 mean IoU on the Pascal VOC2012 dataset.


著者 Jianlong Yuan,Zelu Deng,Shu Wang,Zhenbo Luo
発行日 2022-09-07 14:01:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, DeepL

カテゴリー: cs.CV パーマリンク