Simple and Efficient Architectures for Semantic Segmentation

要約

HRNetなどのセマンティックセグメンテーションのアーキテクチャの状態は印象的な精度を示していますが、それらの顕著な設計の選択から生じる複雑さは、さまざまなモデルアクセラレーションツールを妨げ、さらに、現在のハードウェアでは非効率的な操作を利用します。
このホワイトペーパーでは、ResNetのようなバックボーンと小さなマルチスケールヘッドを備えた単純なエンコーダ-デコーダアーキテクチャが、HRNet、FANet、DDRNetなどの複雑なセマンティックセグメンテーションアーキテクチャと同等またはそれ以上のパフォーマンスを発揮することを示しています。
画像分類用に設計された深いバックボーンをセマンティックセグメンテーションのタスクに単純に適用すると、これらのバックボーンの有効な受容野がはるかに小さいため、標準以下の結果になります。
HRNet、DDRNet、FANetなどの作品で提示されているさまざまな設計上の選択の中には、大きな有効な受容野を持つネットワークが含まれています。
拡張畳み込みのような非効率的な操作を使用しなくても、より大きな有効受容野を持つバックボーンで構成されている場合、単純なエンコーダー-デコーダーアーキテクチャが有利に比較できるかどうかを尋ねるのは自然です。
ResNetsにマイナーで安価な変更を加え、受容野を拡大することで、セマンティックセグメンテーション用の非常にシンプルで競争力のあるベースラインを作成できることを示します。
Cityscapesデータセットの複雑なモデルのパフォーマンスに匹敵するか、それを超える、デスクトップおよびモバイルターゲット向けのこのようなシンプルなアーキテクチャのファミリーを紹介します。
私たちの仕事が、実践者が効率的なセマンティックセグメンテーションモデルを開発するためのシンプルで効果的なベースラインを提供することを願っています。

要約(オリジナル)

Though the state-of-the architectures for semantic segmentation, such as HRNet, demonstrate impressive accuracy, the complexity arising from their salient design choices hinders a range of model acceleration tools, and further they make use of operations that are inefficient on current hardware. This paper demonstrates that a simple encoder-decoder architecture with a ResNet-like backbone and a small multi-scale head, performs on-par or better than complex semantic segmentation architectures such as HRNet, FANet and DDRNets. Naively applying deep backbones designed for Image Classification to the task of Semantic Segmentation leads to sub-par results, owing to a much smaller effective receptive field of these backbones. Implicit among the various design choices put forth in works like HRNet, DDRNet, and FANet are networks with a large effective receptive field. It is natural to ask if a simple encoder-decoder architecture would compare favorably if comprised of backbones that have a larger effective receptive field, though without the use of inefficient operations like dilated convolutions. We show that with minor and inexpensive modifications to ResNets, enlarging the receptive field, very simple and competitive baselines can be created for Semantic Segmentation. We present a family of such simple architectures for desktop as well as mobile targets, which match or exceed the performance of complex models on the Cityscapes dataset. We hope that our work provides simple yet effective baselines for practitioners to develop efficient semantic segmentation models.

arxiv情報

著者 Dushyant Mehta,Andrii Skliar,Haitam Ben Yahia,Shubhankar Borse,Fatih Porikli,Amirhossein Habibian,Tijmen Blankevoort
発行日 2022-06-16 15:08:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, eess.IV パーマリンク