SERNet-Former: Semantic Segmentation by Efficient Residual Network with Attention-Boosting Gates and Attention-Fusion Networks

要約

セマンティック セグメンテーションにおける最先端の手法の効率を向上させるには、計算コストの増加や、グローバル コンテキストとローカル コンテキストからのセマンティック情報の融合などの問題を克服する必要があります。
この研究では、畳み込みニューラル ネットワーク (CNN) がセマンティック セグメンテーションで遭遇する最近の成功と問題に基づいて、独自の効率的な残差ネットワークである Efficient-ResNet を備えたエンコーダ/デコーダ アーキテクチャを提案します。
注意強化ゲート (AbG) と注意強化モジュール (AbM) は、等変かつ特徴ベースの意味情報と、エンコーダー内の効率的な残差ネットワークのグローバル コンテキストの出力の同等サイズを融合することを目的として展開されます。
それぞれ、デコーダ ネットワークは、AbM からインスピレーションを得た追加のアテンション フュージョン ネットワーク (AfN) を使用して開発されています。
AfN は、デコーダ部分に追加の畳み込み層を展開することで、意味情報の 1 対 1 変換の効率を向上させるように設計されています。
私たちのネットワークは、困難な CamVid および Cityscapes データセットでテストされており、提案された方法により、残りのネットワークが大幅に改善されていることがわかります。
私たちの知る限り、開発されたネットワークである SERNet-Former は、CamVid データセットで最先端の結果 (平均 IoU 84.62 %) を達成し、Cityscapes 検証データセットでは困難な結果 (平均 IoU 87.35 %) を達成しました。

要約(オリジナル)

Improving the efficiency of state-of-the-art methods in semantic segmentation requires overcoming the increasing computational cost as well as issues such as fusing semantic information from global and local contexts. Based on the recent success and problems that convolutional neural networks (CNNs) encounter in semantic segmentation, this research proposes an encoder-decoder architecture with a unique efficient residual network, Efficient-ResNet. Attention-boosting gates (AbGs) and attention-boosting modules (AbMs) are deployed by aiming to fuse the equivariant and feature-based semantic information with the equivalent sizes of the output of global context of the efficient residual network in the encoder. Respectively, the decoder network is developed with the additional attention-fusion networks (AfNs) inspired by AbM. AfNs are designed to improve the efficiency in the one-to-one conversion of the semantic information by deploying additional convolution layers in the decoder part. Our network is tested on the challenging CamVid and Cityscapes datasets, and the proposed methods reveal significant improvements on the residual networks. To the best of our knowledge, the developed network, SERNet-Former, achieves state-of-the-art results (84.62 % mean IoU) on CamVid dataset and challenging results (87.35 % mean IoU) on Cityscapes validation dataset.

arxiv情報

著者 Serdar Erisen
発行日 2024-07-02 15:48:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク