Semantic and Spatial Adaptive Pixel-level Classifier for Semantic Segmentation

要約

セマンティック セグメンテーション用のバニラ ピクセル レベル分類器は、トレーニング セットから取得した固定プロトタイプとテスト画像内のピクセル特徴の内積を含む、特定のパラダイムに基づいています。
ただし、このアプローチには、意味論的領域での特徴の逸脱や空間領域での情報損失などの重大な制限があります。
前者は、異なる画像のピクセル特徴間のクラス内での大きな分散に対処するのに苦労しますが、後者は意味論的オブジェクトの構造化情報を効果的に利用できません。
これは、マスクの境界がぼやけるだけでなく、きめの細かい認識能力の欠如にもつながります。
この論文では、上記の課題に対処するための新しい意味的空間適応 (SSA) 分類器を提案します。
具体的には、固定プロトタイプから取得した粗いマスクをガイドとして使用して、固定プロトタイプをテスト画像の意味領域および空間領域の中心に向けて調整します。
意味論的領域と空間領域で適応されたプロトタイプは、分類の決定を行うために同時に考慮されます。
さらに、適応プロセスを改善するために、オンラインのマルチドメイン蒸留学習戦略を提案します。
公開されている 3 つのベンチマークに関する実験結果は、提案された SSA が、計算コストの増加を最小限に抑えながら、ベースライン モデルのセグメンテーション パフォーマンスを大幅に向上させることを示しています。
コードは https://github.com/xwmaxwma/SSA で入手できます。

要約(オリジナル)

Vanilla pixel-level classifiers for semantic segmentation are based on a certain paradigm, involving the inner product of fixed prototypes obtained from the training set and pixel features in the test image. This approach, however, encounters significant limitations, i.e., feature deviation in the semantic domain and information loss in the spatial domain. The former struggles with large intra-class variance among pixel features from different images, while the latter fails to utilize the structured information of semantic objects effectively. This leads to blurred mask boundaries as well as a deficiency of fine-grained recognition capability. In this paper, we propose a novel Semantic and Spatial Adaptive (SSA) classifier to address the above challenges. Specifically, we employ the coarse masks obtained from the fixed prototypes as a guide to adjust the fixed prototype towards the center of the semantic and spatial domains in the test image. The adapted prototypes in semantic and spatial domains are then simultaneously considered to accomplish classification decisions. In addition, we propose an online multi-domain distillation learning strategy to improve the adaption process. Experimental results on three publicly available benchmarks show that the proposed SSA significantly improves the segmentation performance of the baseline models with only a minimal increase in computational cost. Code is available at https://github.com/xwmaxwma/SSA.

arxiv情報

著者 Xiaowen Ma,Zhenliang Ni,Xinghao Chen
発行日 2024-05-10 15:14:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク