SERNet-Former: Semantic Segmentation by Efficient Residual Network with Attention-Boosting Gates and Attention-Fusion Networks

要約

セマンティック セグメンテーションにおける最先端の手法の効率を向上させるには、計算コストの増加や、グローバル コンテキストとローカル コンテキストからのセマンティック情報の融合などの問題を克服する必要があります。
畳み込みニューラル ネットワーク (CNN) がセマンティック セグメンテーションで遭遇する最近の成功と問題に基づいて、この研究では、独自の効率的な残差ネットワークを備えたエンコーダ/デコーダ アーキテクチャを提案します。
注意強化ゲート (AbG) と注意強化モジュール (AbM) は、特徴ベースの意味情報とエンコーダー内の効率的な残差ネットワークのグローバル コンテキストを融合することを目的として展開されます。
それぞれ、デコーダ ネットワークは、AbM からインスピレーションを得た追加のアテンション フュージョン ネットワーク (AfN) を使用して開発されています。
AfN は、デコーダ部分に追加の畳み込み層を展開することで、意味情報の 1 対 1 変換の効率を向上させるように設計されています。
私たちのネットワークは、困難な CamVid および Cityscapes データセットでテストされており、提案された手法により、ResNet-50 などの既存のベースラインに対する大幅な改善が明らかになりました。
私たちの知る限り、開発されたネットワークである SERNet-Former は、CamVid データセットで最先端の結果 (平均 IoU 84.62 %) を達成し、Cityscapes 検証データセットでは困難な結果 (平均 IoU 87.35 %) を達成しました。

要約(オリジナル)

Improving the efficiency of state-of-the-art methods in semantic segmentation requires overcoming the increasing computational cost as well as issues such as fusing semantic information from global and local contexts. Based on the recent success and problems that convolutional neural networks (CNNs) encounter in semantic segmentation, this research proposes an encoder-decoder architecture with a unique efficient residual network. Attention-boosting gates (AbGs) and attention-boosting modules (AbMs) are deployed by aiming to fuse the feature-based semantic information with the global context of the efficient residual network in the encoder. Respectively, the decoder network is developed with the additional attention-fusion networks (AfNs) inspired by AbM. AfNs are designed to improve the efficiency in the one-to-one conversion of the semantic information by deploying additional convolution layers in the decoder part. Our network is tested on the challenging CamVid and Cityscapes datasets, and the proposed methods reveal significant improvements on the existing baselines, such as ResNet-50. To the best of our knowledge, the developed network, SERNet-Former, achieves state-of-the-art results (84.62 % mean IoU) on CamVid dataset and challenging results (87.35 % mean IoU) on Cityscapes validation dataset.

arxiv情報

著者 Serdar Erisen
発行日 2024-02-12 09:37:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク