Semantic Segmentation via Pixel-to-Center Similarity Calculation

要約

完全な畳み込みネットワークがセマンティック セグメンテーションで大きな成功を収めて以来、識別可能なピクセル特徴表現の抽出に焦点を当てた多くの研究が提案されてきました。
ただし、既存の方法には、(i) 異なるシーンでのクラス内フィーチャの大きな変動、(ii) 同じシーンでのクラス間フィーチャの小さな差異という 2 つの典型的な課題がまだ残っていることがわかります。
この論文では、最初にセマンティック セグメンテーションを、ピクセルとクラス センター間の類似性の観点から再考します。
セグメンテーション ヘッドの各重みベクトルは、データセット全体の対応するセマンティック クラスを表します。これは、クラス センターの埋め込みと見なすことができます。
したがって、ピクセルごとの分類は、ピクセルとクラス中心の間の最終的な特徴空間で類似性を計算することになります。
この斬新な見方の下で、クラス センター類似性レイヤー (CCS レイヤー) を提案し、さまざまなシーンで調整された適応型クラス センターを生成し、クラス センター間の類似性を監視することで、上記の課題に対処します。
Adaptive Class Center Module (ACCM) を利用して、各シーンに合わせて調整されたクラス センターを生成し、異なるシーン間の大きなクラス内変動を適応させます。
特別に設計された損失関数が導入され、予測された中心間およびピクセル間の類似性に基づいて、クラス間距離とクラス内距離の両方を制御します。
最後に、CCS レイヤーは、処理されたピクセルから中心までの類似性をセグメンテーション予測として出力します。
広範な実験により、私たちのモデルが最先端の CNN ベースの方法に対して有利に機能することが実証されています。

要約(オリジナル)

Since the fully convolutional network has achieved great success in semantic segmentation, lots of works have been proposed focusing on extracting discriminative pixel feature representations. However, we observe that existing methods still suffer from two typical challenges, i.e. (i) large intra-class feature variation in different scenes, (ii) small inter-class feature distinction in the same scene. In this paper, we first rethink semantic segmentation from a perspective of similarity between pixels and class centers. Each weight vector of the segmentation head represents its corresponding semantic class in the whole dataset, which can be regarded as the embedding of the class center. Thus, the pixel-wise classification amounts to computing similarity in the final feature space between pixels and the class centers. Under this novel view, we propose a Class Center Similarity layer (CCS layer) to address the above-mentioned challenges by generating adaptive class centers conditioned on different scenes and supervising the similarities between class centers. It utilizes a Adaptive Class Center Module (ACCM) to generate class centers conditioned on each scene, which adapt the large intra-class variation between different scenes. Specially designed loss functions are introduced to control both inter-class and intra-class distances based on predicted center-to-center and pixel-to-center similarity, respectively. Finally, the CCS layer outputs the processed pixel-to-center similarity as the segmentation prediction. Extensive experiments demonstrate that our model performs favourably against the state-of-the-art CNN-based methods.

arxiv情報

著者 Dongyue Wu,Zilin Guo,Aoyan Li,Changqian Yu,Changxin Gao,Nong Sang
発行日 2023-01-12 08:36:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク